평균이 아닌 범위: 신뢰할 수 있는 검색 시스템 평가를 위한 의미 기반 계층화
Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation
검색 증강 생성(RAG)에서 검색 품질은 정확성과 안정성을 저해하는 주요 요인입니다. 현재 평가 방법은 휴리스틱하게 구성된 질의 집합에 의존하며, 이는 숨겨진 고유 편향을 초래합니다. 본 논문에서는 검색 시스템 평가를 통계적 추정 문제로 공식화하고, 평가 집합 구성이 측정의 신뢰성에 근본적인 제한을 가한다는 것을 보여줍니다. 또한, 본 논문에서는 문서들을 개체 기반 클러스터로 구성된 해석 가능한 글로벌 공간으로 조직하고, 누락된 계층에 대한 질의를 체계적으로 생성하는 '의미 기반 계층화' 방법을 제안합니다. 이를 통해 (1) 다양한 검색 환경에서 공식적인 의미 기반 범위 보장, (2) 검색 실패 모드에 대한 해석 가능한 분석 결과를 얻을 수 있습니다. 다양한 벤치마크와 검색 방법을 사용한 실험 결과는 본 프레임워크의 유효성을 입증합니다. 실험 결과는 체계적인 범위 부족 현상을 드러내고, 검색 성능의 변동을 설명하는 구조적 신호를 식별하며, 계층화된 평가가 집계된 측정 방법보다 더 안정적이고 투명한 평가를 제공하고, 더 신뢰할 수 있는 의사 결정을 지원한다는 것을 보여줍니다.
Retrieval quality is the primary bottleneck for accuracy and robustness in retrieval-augmented generation (RAG). Current evaluation relies on heuristically constructed query sets, which introduce a hidden intrinsic bias. We formalize retrieval evaluation as a statistical estimation problem, showing that metric reliability is fundamentally limited by the evaluation-set construction. We further introduce \emph{semantic stratification}, which grounds evaluation in corpus structure by organizing documents into an interpretable global space of entity-based clusters and systematically generating queries for missing strata. This yields (1) formal semantic coverage guarantees across retrieval regimes and (2) interpretable visibility into retrieval failure modes. Experiments across multiple benchmarks and retrieval methods validate our framework. The results expose systematic coverage gaps, identify structural signals that explain variance in retrieval performance, and show that stratified evaluation yields more stable and transparent assessments while supporting more trustworthy decision-making than aggregate metrics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.