내가 정말 알고 있는가? 환각 감소를 위한 사실적 자가 검증 학습
Do I Really Know? Learning Factual Self-Verification for Hallucination Reduction
사실적 환각(Factual hallucination)은 대형 언어 모델(LLM)의 핵심적인 과제로 남아 있습니다. 기존의 완화 접근 방식들은 주로 외부 사후 검증에 의존하거나 미세 조정(fine-tuning) 중에 불확실성을 답변 거부로 직접 매핑하는 방식에 의존하는데, 이는 종종 지나치게 보수적인 결과를 초래합니다. 우리는 일관성 기반의 자가 검증을 통해 LLM이 사실적 불확실성에 대해 추론하도록 가르치는 훈련 시점 프레임워크인 VeriFY를 제안합니다. VeriFY는 구조화된 검증 추적(trace)으로 훈련을 증강하여, 모델이 초기 답변을 생성하고, 검증 질의를 생성 및 답변하며, 일관성 판단을 내린 다음, 최종적으로 답변할지 기권할지 결정하도록 유도합니다. 증강된 추적 데이터로 훈련할 때 환각된 내용을 강화할 위험을 해결하기 위해, 검증 행동에 대한 지도(supervision)는 보존하면서 훈련 목표에서 환각된 답변 단계를 제외하는 단계별 손실 마스킹(stage-level loss masking) 접근 방식을 도입합니다. 다양한 모델 계열과 규모에 걸쳐 VeriFY는 사실적 환각 비율을 9.7%에서 53.3%까지 감소시켰으며, 재현율 감소는 0.4%에서 5.7%로 소폭에 그쳤고, 단일 소스로 훈련했을 때도 여러 데이터셋에 걸쳐 일반화되는 성능을 보였습니다. 소스 코드, 훈련 데이터, 훈련된 모델 체크포인트는 논문 게재 승인 시 공개될 예정입니다.
Factual hallucination remains a central challenge for large language models (LLMs). Existing mitigation approaches primarily rely on either external post-hoc verification or mapping uncertainty directly to abstention during fine-tuning, often resulting in overly conservative behavior. We propose VeriFY, a training-time framework that teaches LLMs to reason about factual uncertainty through consistency-based self-verification. VeriFY augments training with structured verification traces that guide the model to produce an initial answer, generate and answer a probing verification query, issue a consistency judgment, and then decide whether to answer or abstain. To address the risk of reinforcing hallucinated content when training on augmented traces, we introduce a stage-level loss masking approach that excludes hallucinated answer stages from the training objective while preserving supervision over verification behavior. Across multiple model families and scales, VeriFY reduces factual hallucination rates by 9.7 to 53.3 percent, with only modest reductions in recall (0.4 to 5.7 percent), and generalizes across datasets when trained on a single source. The source code, training data, and trained model checkpoints will be released upon acceptance.
AI Analysis
Korean Summary
Key Innovations
- 학습 단계에서 자기 검증 과정을 내재화하는 'VeriFY' 프레임워크
- 초기 답변, 검증 질문, 재답변, 일관성 판단으로 이어지는 '구조화된 검증 트레이스(Verification Traces)' 도입
- 환각이 포함된 답변 구간은 학습에서 제외하고 검증 논리만 학습하는 '단계별 손실 마스킹(Stage-level Loss Masking)' 기법
- 불필요한 답변 거부를 줄이고 환각 감소와의 균형을 평가하는 새로운 지표 'Hallucination F1' 제안
Learning & Inference Impact
학습 과정에서는 일반적인 정답 데이터 외에 모델이 생성한 잠재적 오류가 포함된 검증 트레이스 데이터를 사용합니다. 이때 핵심은 손실 마스킹(Loss Masking)을 통해 모델이 잘못된 사실 자체를 '지식'으로 학습하는 것을 방지하고, 오류를 탐지하는 '추론 과정'만을 학습하게 한다는 점입니다. 추론 과정에서 모델은 단순 답변만 내놓는 것이 아니라, 학습된 대로 검증 생각 과정(Trace)을 함께 생성합니다. 이는 추론 시 생성 토큰 수를 증가시켜 약간의 레이턴시를 발생시키지만, 외부 검색이나 다수 샘플링(Self-Consistency)과 같은 값비싼 후처리 과정 없이 단일 모델 생성만으로 높은 신뢰성을 확보할 수 있게 합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.