2602.21456v1 Feb 25, 2026 cs.IR

심층 연구에서의 텍스트 순위 재검토

Revisiting Text Ranking in Deep Research

Chuan Meng
Chuan Meng
Citations: 26
h-index: 3
Litu Ou
Litu Ou
Citations: 769
h-index: 7
Sean MacAvaney
Sean MacAvaney
Citations: 26
h-index: 3
Jeff Dalton
Jeff Dalton
Citations: 34
h-index: 2

심층 연구는 광범위한 웹 탐색을 통해 어려운 질문에 답하는 데 목표를 둔 중요한 과제로 부상했습니다. 이를 해결하기 위해, 대부분의 기존 연구에서는 대규모 언어 모델(LLM) 기반 에이전트에 불투명한 웹 검색 API를 탑재하여 에이전트가 반복적으로 검색 쿼리를 실행하고, 외부 증거를 검색하고, 이를 바탕으로 추론할 수 있도록 합니다. 검색은 심층 연구에서 필수적인 역할을 하지만, 블랙박스 웹 검색 API는 검색 구성 요소에 대한 체계적인 분석을 방해하며, 결과적으로 심층 연구에서 사용되는 기존 텍스트 순위 방법의 작동 방식에 대한 이해가 부족합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 심층 연구 환경에서 IR 텍스트 순위 방법의 핵심적인 결과와 최적의 방법들을 재현했습니다. 특히, 우리는 다음 세 가지 관점에서 그 효과를 분석했습니다. (i) 검색 단위 (문서 vs. 문단), (ii) 파이프라인 구성 (다양한 검색기, 재순위기, 및 재순위 깊이), (iii) 쿼리 특징 (에이전트가 실행하는 쿼리와 텍스트 순위기의 학습 쿼리 간의 불일치). 우리는 고정된 코퍼스를 사용하는 심층 연구 데이터셋인 BrowseComp-Plus에서 2개의 오픈 소스 에이전트, 5개의 검색기, 및 3개의 재순위기를 다양한 설정으로 평가하는 실험을 수행했습니다. 실험 결과, 에이전트가 실행하는 쿼리는 일반적으로 웹 검색 스타일의 구문 (예: 정확한 매칭)을 따르며, 이는 어휘 기반, 학습된 희소 표현, 및 다중 벡터 검색기에 유리하게 작용합니다. 문단 단위 검색은 제한된 컨텍스트 윈도우에서 더 효율적이며, 어휘 기반 검색에서 발생하는 문서 길이 정규화의 어려움을 피할 수 있습니다. 재순위는 매우 효과적이며, 에이전트가 실행하는 쿼리를 자연어 질문으로 변환하는 것은 쿼리 불일치를 크게 완화할 수 있습니다.

Original Abstract

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!