내부 정보: RAG 시스템은 평가 비밀로부터 얼마나 많은 이점을 얻을 수 있는가?
Insider Knowledge: How Much Can RAG Systems Gain from Evaluation Secrets?
RAG 시스템은 점점 더 많이 LLM 평가 모델을 사용하여 평가되고 최적화되며, 이러한 접근 방식은 시스템 평가의 주류 패러다임으로 빠르게 자리 잡고 있습니다. 특히, 너겟 기반 접근 방식은 현재 평가 프레임워크뿐만 아니라 RAG 시스템 자체의 아키텍처에도 통합되어 있습니다. 이러한 통합은 진정한 개선으로 이어질 수 있지만, 순환적인 문제로 인해 부정확한 측정 결과를 초래할 위험도 존재합니다. 본 논문에서는 Ginger 및 Crucible와 같은 너겟 기반 RAG 시스템과 GPT-Researcher와 같은 강력한 기준 모델을 비교 실험하여 이러한 위험을 조사합니다. Crucible을 의도적으로 수정하여 LLM 평가 모델에 최적화된 결과를 생성하도록 하여, 평가 요소(예: 프롬프트 템플릿 또는 골드 너겟)가 유출되거나 예측될 수 있는 경우 거의 완벽한 평가 점수를 얻을 수 있음을 보여줍니다. 우리의 연구 결과는 맹목적인 평가 환경과 방법론적 다양성의 중요성을 강조하며, 이를 통해 메트릭에 대한 과도한 최적화가 실제 시스템 발전으로 오인되지 않도록 보호할 수 있습니다.
RAG systems are increasingly evaluated and optimized using LLM judges, an approach that is rapidly becoming the dominant paradigm for system assessment. Nugget-based approaches in particular are now embedded not only in evaluation frameworks but also in the architectures of RAG systems themselves. While this integration can lead to genuine improvements, it also creates a risk of faulty measurements due to circularity. In this paper, we investigate this risk through comparative experiments with nugget-based RAG systems, including Ginger and Crucible, against strong baselines such as GPT-Researcher. By deliberately modifying Crucible to generate outputs optimized for an LLM judge, we show that near-perfect evaluation scores can be achieved when elements of the evaluation - such as prompt templates or gold nuggets - are leaked or can be predicted. Our results highlight the importance of blind evaluation settings and methodological diversity to guard against mistaking metric overfitting for genuine system progress.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.