RAG은 검색 결과가 잘못되었을 때 이를 인지할 수 있는가? 지식 충돌 하에서의 컨텍스트 준수 진단
Does RAG Know When Retrieval Is Wrong? Diagnosing Context Compliance under Knowledge Conflict
검색 증강 생성(RAG)에서 컨텍스트 준수 현상은 검색된 컨텍스트가 모델의 내재적 지식과 충돌하더라도 최종 답변에 지배적인 영향을 미치는 경우를 의미합니다. 정확도만으로는 이러한 충돌 상황에서 검색된 컨텍스트가 답변에 미치는 인과적 영향을 파악할 수 없습니다. 본 연구에서는 추론 시점에 작동하며, 제어된 검색 충돌을 위한 개입 메커니즘으로 사용되는 믿음 분해 방식인 컨텍스트 기반 분해(CDD)를 소개합니다. Epi-Scale 스트레스 테스트, TruthfulQA 오해 주입, 그리고 다양한 모델을 사용한 재실험을 통해 CDD는 세 가지 패턴을 보여줍니다. P1: CDD는 상한선 공격 환경에서 컨텍스트 준수를 측정할 수 있으며, 표준 RAG는 TruthfulQA 오해 주입 시 15.0%의 정확도를 달성합니다 (N=500). P2: 적대적 정확도 향상은 모델 계열 간에 전이됩니다. CDD는 Gemini-2.5-Flash 및 Claude Haiku/Sonnet/Opus 모델의 정확도를 향상시키지만, 근거-답변 간의 인과적 연결은 전이되지 않습니다. CDD는 Gemini-2.5-Flash에서 64.1%의 오해 주입에 대한 인과적 민감도를 보이며, Claude 모델 세 가지 모두에서 민감도는 [-3%, +7%] 범위에 속합니다. 이는 Claude 모델의 정확도 향상이 명시적인 충돌 해결 과정을 통해 이루어지는 것과는 다른 메커니즘을 통해 작동한다는 것을 시사합니다. P3: 명시적인 충돌 분해는 시간적 변화 및 노이즈가 포함된 정보 하에서 안정성을 향상시킵니다. CDD는 시간적 변화에 대해 71.3%, 그리고 노이즈가 포함된 정보에 대해 69.9%의 성능을 Epi-Scale 적대적 벤치마크에서 보였습니다. 이러한 세 가지 패턴은 컨텍스트 준수를 표준 RAG를 분석하고 개입할 수 있는 중요한 요소로 규정하며, 이는 검색 품질이나 단일 방법의 안정성 문제와는 구별됩니다. 본 연구는 다양한 모델 계열과 검색 파이프라인에 대한 체계적인 연구를 위해 Epi-Scale을 공개하도록 제안합니다.
The Context-Compliance Regime in Retrieval-Augmented Generation (RAG) occurs when retrieved context dominates the final answer even when it conflicts with the model's parametric knowledge. Accuracy alone does not reveal how retrieved context causally shapes answers under such conflict. We introduce Context-Driven Decomposition (CDD), a belief-decomposition probe that operates at inference time and serves as an intervention mechanism for controlled retrieval conflict. Across Epi-Scale stress tests, TruthfulQA misconception injection, and cross- model reruns, CDD exposes three patterns. P1: context compliance is measurable in an upper-bound adversarial setting, where Standard RAG reaches 15.0% accuracy on TruthfulQA misconception injection (N=500). P2: adversarial accuracy gains transfer across model families: CDD improves accuracy on Gemini-2.5-Flash and on Claude Haiku/Sonnet/Opus, but rationale-answer causal coupling does not transfer. CDD reaches 64.1% mistake- injection causal sensitivity on Gemini-2.5-Flash, while sensitivities for all three Claude variants fall in the [-3%, +7%] range, suggesting that the Claude-side accuracy gains operate through a mechanism distinct from the explicit conflict-resolution trace. P3: explicit conflict decomposition improves robustness under temporal drift and noisy distractors, with CDD reaching 71.3% on temporal shifts and 69.9% on distractor evidence on the full Epi-Scale adversarial benchmark. These three patterns identify context-compliance as a structural axis along which standard RAG can be probed and intervened on, distinct from retrieval-quality or single-method robustness questions, and motivate releasing Epi-Scale for systematic study across model families and retrieval pipelines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.