사례 기반 증거 검증: 증거 민감성 감독을 위한 프레임워크
Case-Grounded Evidence Verification: A Framework for Constructing Evidence-Sensitive Supervision
증거 기반 추론은 단순히 검색된 텍스트를 예측에 연결하는 것 이상을 요구합니다. 모델은 제공된 증거가 목표 주장을 뒷받침하는지 여부에 따라 결정을 내려야 합니다. 하지만 실제로 이는 종종 실패하는데, 그 이유는 감독 신호가 약하고, 증거가 주장에 느슨하게 연결되어 있으며, 평가가 증거 의존성을 직접적으로 테스트하지 않기 때문입니다. 본 논문에서는 사례 기반 증거 검증이라는 일반적인 프레임워크를 소개합니다. 이 프레임워크에서 모델은 로컬 사례 컨텍스트, 외부 증거, 그리고 구조화된 주장을 입력받고, 해당 사례에 대해 증거가 주장을 뒷받침하는지 여부를 결정해야 합니다. 핵심 기여는 명시적인 지지 예제를 생성하는 감독 신호 구성 절차입니다. 이 절차는 수동 증거 주석 없이, 의미적으로 통제된 비-지지 예제(예: 반사실적 오류 상태 및 주제 관련 부정 예제)를 포함합니다. 본 논문에서는 이 프레임워크를 영상 진단 분야에 적용하고, 생성된 지지 작업으로 표준 검증기를 학습시킵니다. 학습된 검증기는 사례 정보만 사용하거나 증거 정보만 사용하는 기본 모델보다 훨씬 뛰어난 성능을 보이며, 정확한 증거가 주어질 경우에도 강력한 성능을 유지합니다. 그러나 증거가 제거되거나 변경되면 성능이 저하되어 진정한 증거 의존성을 나타냅니다. 이러한 현상은 새로운 증거 문서 및 외부 사례 분포에서도 관찰되지만, 증거 출처의 변화에 민감하며, 기본 모델의 선택에 따라 성능이 달라질 수 있습니다. 전반적으로, 이러한 결과는 증거 기반 추론의 주요 병목 현상은 모델의 성능뿐만 아니라, 증거의 인과적 역할을 인코딩하는 감독 신호의 부족에 있다는 것을 시사합니다.
Evidence-grounded reasoning requires more than attaching retrieved text to a prediction: a model should make decisions that depend on whether the provided evidence supports the target claim. In practice, this often fails because supervision is weak, evidence is only loosely tied to the claim, and evaluation does not test evidence dependence directly. We introduce case-grounded evidence verification, a general framework in which a model receives a local case context, external evidence, and a structured claim, and must decide whether the evidence supports the claim for that case. Our key contribution is a supervision construction procedure that generates explicit support examples together with semantically controlled non-support examples, including counterfactual wrong-state and topic-related negatives, without manual evidence annotation. We instantiate the framework in radiology and train a standard verifier on the resulting support task. The learned verifier substantially outperforms both case-only and evidence-only baselines, remains strong under correct evidence, and collapses when evidence is removed or swapped, indicating genuine evidence dependence. This behavior transfers across unseen evidence articles and an external case distribution, though performance degrades under evidence-source shift and remains sensitive to backbone choice. Overall, the results suggest that a major bottleneck in evidence grounding is not only model capacity, but the lack of supervision that encodes the causal role of evidence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.