심층 연구에서의 텍스트 순위 재검토
Revisiting Text Ranking in Deep Research
심층 연구는 광범위한 웹 탐색을 통해 어려운 질문에 답하는 데 목표를 둔 중요한 과제로 부상했습니다. 이를 해결하기 위해, 대부분의 기존 연구에서는 대규모 언어 모델(LLM) 기반 에이전트에 불투명한 웹 검색 API를 탑재하여 에이전트가 반복적으로 검색 쿼리를 실행하고, 외부 증거를 검색하고, 이를 바탕으로 추론할 수 있도록 합니다. 검색은 심층 연구에서 필수적인 역할을 하지만, 블랙박스 웹 검색 API는 검색 구성 요소에 대한 체계적인 분석을 방해하며, 결과적으로 심층 연구에서 사용되는 기존 텍스트 순위 방법의 작동 방식에 대한 이해가 부족합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 심층 연구 환경에서 IR 텍스트 순위 방법의 핵심적인 결과와 최적의 방법들을 재현했습니다. 특히, 우리는 다음 세 가지 관점에서 그 효과를 분석했습니다. (i) 검색 단위 (문서 vs. 문단), (ii) 파이프라인 구성 (다양한 검색기, 재순위기, 및 재순위 깊이), (iii) 쿼리 특징 (에이전트가 실행하는 쿼리와 텍스트 순위기의 학습 쿼리 간의 불일치). 우리는 고정된 코퍼스를 사용하는 심층 연구 데이터셋인 BrowseComp-Plus에서 2개의 오픈 소스 에이전트, 5개의 검색기, 및 3개의 재순위기를 다양한 설정으로 평가하는 실험을 수행했습니다. 실험 결과, 에이전트가 실행하는 쿼리는 일반적으로 웹 검색 스타일의 구문 (예: 정확한 매칭)을 따르며, 이는 어휘 기반, 학습된 희소 표현, 및 다중 벡터 검색기에 유리하게 작용합니다. 문단 단위 검색은 제한된 컨텍스트 윈도우에서 더 효율적이며, 어휘 기반 검색에서 발생하는 문서 길이 정규화의 어려움을 피할 수 있습니다. 재순위는 매우 효과적이며, 에이전트가 실행하는 쿼리를 자연어 질문으로 변환하는 것은 쿼리 불일치를 크게 완화할 수 있습니다.
Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.