2604.14227v1 Apr 14, 2026 cs.IR

FRESCO: 검색 증강 생성(Retrieval-Augmented Generation) 시스템의 의미적 충돌 변화에 따른 재순위화 모델의 성능 측정 및 최적화

FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation

Hayeon Lee
Hayeon Lee
Citations: 330
h-index: 9
Alexander Min Meta Superintelligence Labs
Alexander Min Meta Superintelligence Labs
Citations: 0
h-index: 0
Ucla
Ucla
Citations: 153
h-index: 1
Cho-Jui Hsieh
Cho-Jui Hsieh
Citations: 50
h-index: 4
Vijai Mohan
Vijai Mohan
Citations: 39
h-index: 2
Chunchun Chen
Chunchun Chen
Citations: 4
h-index: 2
Sohyun An
Sohyun An
Citations: 60
h-index: 3
Shuibenyang Yuan
Shuibenyang Yuan
Citations: 0
h-index: 0

검색 증강 생성(RAG)은 대규모 언어 모델(LLM)의 시간적 한계를 극복하기 위해 최신 정보를 기반으로 답변을 생성하는 핵심적인 방법입니다. RAG 파이프라인 내에서, 재순위화 모델은 검색된 후보 문서 중에서 가장 유용한 문서를 선택하는 데 중요한 역할을 합니다. 그러나 기존의 성능 측정 기준은 주로 정적인 환경에서 재순위화 모델을 평가하며, 시간이 지남에 따라 변화하는 정보 환경에서의 성능을 충분히 평가하지 못합니다. 이는 실제 시스템이 시간적으로 다른 다양한 증거 자료 중에서 선택해야 하는 상황을 고려할 때 중요한 문제입니다. 이러한 한계를 해결하기 위해, 우리는 시간적으로 동적인 환경에서 재순위화 모델을 평가하기 위한 벤치마크인 FRESCO(Factual Recency and Evolving Semantic COnflict)를 제안합니다. FRESCO는 최신 정보 검색에 초점을 맞춘 질의와 과거 위키백과 수정본을 결합하여, 재순위화 모델이 사실적으로 최신 정보에 우선순위를 부여하면서도 의미적 관련성을 유지하는지 테스트합니다. 우리의 평가는 기존 재순위화 모델들이 일관되게 나타나는 문제점을 보여줍니다. 즉, 의미적으로 풍부한 문서에 강한 편향성을 가지고 있으며, 이는 사실적으로 오래된 정보일 경우에도 마찬가지입니다. 또한, 우리는 이 문제를 완화하기 위한 지시문 최적화 프레임워크를 추가적으로 연구합니다. Evolving(변화하는) 지식 및 Non-Evolving(변화하지 않는) 지식 작업 간의 균형을 이루는 Pareto 최적 지시문을 식별함으로써, 우리는 Evolving 지식 작업에서 최대 27%의 성능 향상을 얻었으며, Non-Evolving 지식 작업에서도 경쟁력 있는 성능을 유지했습니다.

Original Abstract

Retrieval-Augmented Generation (RAG) is a key approach to mitigating the temporal staleness of large language models (LLMs) by grounding responses in up-to-date evidence. Within the RAG pipeline, re-rankers play a pivotal role in selecting the most useful documents from retrieved candidates. However, existing benchmarks predominantly evaluate re-rankers in static settings and do not adequately assess performance under evolving information -- a critical gap, as real-world systems often must choose among temporally different pieces of evidence. To address this limitation, we introduce FRESCO (Factual Recency and Evolving Semantic COnflict), a benchmark for evaluating re-rankers in temporally dynamic contexts. By pairing recency-seeking queries with historical Wikipedia revisions, FRESCO tests whether re-rankers can prioritize factually recent evidence while maintaining semantic relevance. Our evaluation reveals a consistent failure mode across existing re-rankers: a strong bias toward older, semantically rich documents, even when they are factually obsolete. We further investigate an instruction optimization framework to mitigate this issue. By identifying Pareto-optimal instructions that balance Evolving and Non-Evolving Knowledge tasks, we obtain gains of up to 27% on Evolving Knowledge tasks while maintaining competitive performance on Non-Evolving Knowledge tasks.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!