추론 집약형 검색 에이전트를 위한 연산 할당
Compute Allocation for Reasoning-Intensive Retrieval Agents
에이전트가 장기간 동안 작동하면서 메모리 저장 공간이 지속적으로 증가하므로, 관련 정보를 검색하는 데 있어 검색 기능은 매우 중요합니다. 많은 에이전트 쿼리는 추론 집약적인 검색을 요구하는데, 이는 쿼리와 관련 문서 간의 연결이 명시적이지 않아 추론을 통해 연결해야 하는 경우를 의미합니다. LLM(대규모 언어 모델)을 활용한 파이프라인은 쿼리 확장 및 후보 재순위를 통해 이러한 문제를 해결하지만, 상당한 추론 비용을 발생시킵니다. 본 연구에서는 BRIGHT 벤치마크와 Gemini 2.5 모델 패밀리를 사용하여 추론 집약적인 검색 파이프라인에서의 연산 할당을 분석했습니다. 우리는 쿼리 확장 및 재순위 단계에서 모델 용량, 추론 시간 사고, 그리고 재순위 깊이를 다양하게 변경했습니다. 그 결과, 재순위는 더 강력한 모델(+7.5 NDCG@10)과 더 깊은 후보 풀(+100개에서 k=10개일 때 +21%)로부터 상당한 이점을 얻는 반면, 쿼리 확장은 가벼운 모델 이상에서는 효과가 미미한 것으로 나타났습니다(+1.1 NDCG@10, 약한 모델에서 강력한 모델로). 추론 시간 사고는 어느 단계에서도 최소한의 개선 효과를 보였습니다. 이러한 결과는 연산을 파이프라인의 모든 단계에 균등하게 분배하는 것보다 재순위에 집중하는 것이 더 효과적임을 시사합니다.
As agents operate over long horizons, their memory stores grow continuously, making retrieval critical to accessing relevant information. Many agent queries require reasoning-intensive retrieval, where the connection between query and relevant documents is implicit and requires inference to bridge. LLM-augmented pipelines address this through query expansion and candidate re-ranking, but introduce significant inference costs. We study computation allocation in reasoning-intensive retrieval pipelines using the BRIGHT benchmark and Gemini 2.5 model family. We vary model capacity, inference-time thinking, and re-ranking depth across query expansion and re-ranking stages. We find that re-ranking benefits substantially from stronger models (+7.5 NDCG@10) and deeper candidate pools (+21% from $k$=10 to 100), while query expansion shows diminishing returns beyond lightweight models (+1.1 NDCG@10 from weak to strong). Inference-time thinking provides minimal improvement at either stage. These results suggest that compute should be concentrated on re-ranking rather than distributed uniformly across pipeline stages.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.