관련성을 넘어: 검색과 RAG 정보 커버리지 간의 관계
Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage
검색 증강 생성(RAG) 시스템은 문서 검색을 생성 모델과 결합하여 보고서 생성과 같은 복잡한 정보 검색 작업을 수행합니다. 검색 품질과 생성 효과 사이의 관계는 직관적으로 보이지만, 체계적으로 연구된 바는 거의 없습니다. 본 연구에서는 상위 단계의 검색 메트릭이 최종 생성된 응답의 정보 커버리지를 나타내는 신뢰할 수 있는 지표가 될 수 있는지 조사합니다. TREC NeuCLIR 2024 및 TREC RAG 2024의 두 가지 텍스트 RAG 벤치마크와 WikiVideo라는 멀티모달 벤치마크를 사용하여, 4가지 RAG 파이프라인과 여러 평가 프레임워크(Auto-ARGUE 및 MiRAGE)에서 15개의 텍스트 검색 스택과 10개의 멀티모달 검색 스택을 분석했습니다. 연구 결과는 주제 및 시스템 수준에서, 커버리지 기반 검색 메트릭과 생성된 응답의 핵심 정보 커버리지 사이에 강한 상관관계가 있음을 보여줍니다. 검색 목표가 생성 목표와 일치할 때 이러한 관계가 가장 강하게 나타나지만, 더욱 복잡한 반복적인 RAG 파이프라인은 생성 품질과 검색 효과를 부분적으로 분리할 수 있습니다. 이러한 결과는 검색 메트릭을 RAG 성능의 지표로 사용하는 데 대한 경험적 근거를 제공합니다.
Retrieval-augmented generation (RAG) systems combine document retrieval with a generative model to address complex information seeking tasks like report generation. While the relationship between retrieval quality and generation effectiveness seems intuitive, it has not been systematically studied. We investigate whether upstream retrieval metrics can serve as reliable early indicators of the final generated response's information coverage. Through experiments across two text RAG benchmarks (TREC NeuCLIR 2024 and TREC RAG 2024) and one multimodal benchmark (WikiVideo), we analyze 15 text retrieval stacks and 10 multimodal retrieval stacks across four RAG pipelines and multiple evaluation frameworks (Auto-ARGUE and MiRAGE). Our findings demonstrate strong correlations between coverage-based retrieval metrics and nugget coverage in generated responses at both topic and system levels. This relationship holds most strongly when retrieval objectives align with generation goals, though more complex iterative RAG pipelines can partially decouple generation quality from retrieval effectiveness. These findings provide empirical support for using retrieval metrics as proxies for RAG performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.