2602.02018v1 Feb 02, 2026 cs.AI

내가 정말 알고 있는가? 환각 감소를 위한 사실적 자가 검증 학습

Do I Really Know? Learning Factual Self-Verification for Hallucination Reduction

Enes Altinisik
Enes Altinisik
Citations: 244
h-index: 8
Masoomali Fatehkia
Masoomali Fatehkia
Citations: 495
h-index: 9
Fatih Deniz
Fatih Deniz
Citations: 53
h-index: 1
Nadir Durrani
Nadir Durrani
Citations: 2
h-index: 1
Majd Hawasly
Majd Hawasly
Citations: 624
h-index: 13
Mohammad Raza
Mohammad Raza
Citations: 13
h-index: 2
H. Sencar
H. Sencar
Citations: 4,594
h-index: 32

사실적 환각(Factual hallucination)은 대형 언어 모델(LLM)의 핵심적인 과제로 남아 있습니다. 기존의 완화 접근 방식들은 주로 외부 사후 검증에 의존하거나 미세 조정(fine-tuning) 중에 불확실성을 답변 거부로 직접 매핑하는 방식에 의존하는데, 이는 종종 지나치게 보수적인 결과를 초래합니다. 우리는 일관성 기반의 자가 검증을 통해 LLM이 사실적 불확실성에 대해 추론하도록 가르치는 훈련 시점 프레임워크인 VeriFY를 제안합니다. VeriFY는 구조화된 검증 추적(trace)으로 훈련을 증강하여, 모델이 초기 답변을 생성하고, 검증 질의를 생성 및 답변하며, 일관성 판단을 내린 다음, 최종적으로 답변할지 기권할지 결정하도록 유도합니다. 증강된 추적 데이터로 훈련할 때 환각된 내용을 강화할 위험을 해결하기 위해, 검증 행동에 대한 지도(supervision)는 보존하면서 훈련 목표에서 환각된 답변 단계를 제외하는 단계별 손실 마스킹(stage-level loss masking) 접근 방식을 도입합니다. 다양한 모델 계열과 규모에 걸쳐 VeriFY는 사실적 환각 비율을 9.7%에서 53.3%까지 감소시켰으며, 재현율 감소는 0.4%에서 5.7%로 소폭에 그쳤고, 단일 소스로 훈련했을 때도 여러 데이터셋에 걸쳐 일반화되는 성능을 보였습니다. 소스 코드, 훈련 데이터, 훈련된 모델 체크포인트는 논문 게재 승인 시 공개될 예정입니다.

Original Abstract

Factual hallucination remains a central challenge for large language models (LLMs). Existing mitigation approaches primarily rely on either external post-hoc verification or mapping uncertainty directly to abstention during fine-tuning, often resulting in overly conservative behavior. We propose VeriFY, a training-time framework that teaches LLMs to reason about factual uncertainty through consistency-based self-verification. VeriFY augments training with structured verification traces that guide the model to produce an initial answer, generate and answer a probing verification query, issue a consistency judgment, and then decide whether to answer or abstain. To address the risk of reinforcing hallucinated content when training on augmented traces, we introduce a stage-level loss masking approach that excludes hallucinated answer stages from the training objective while preserving supervision over verification behavior. Across multiple model families and scales, VeriFY reduces factual hallucination rates by 9.7 to 53.3 percent, with only modest reductions in recall (0.4 to 5.7 percent), and generalizes across datasets when trained on a single source. The source code, training data, and trained model checkpoints will be released upon acceptance.

0 Citations
0 Influential
16 Altmetric
80.0 Score
Original PDF

AI Analysis

Korean Summary

이 논문은 대규모 언어 모델(LLM)의 고질적인 문제인 할루시네이션(환각)을 줄이기 위해, 학습 단계에서 자기 검증 능력을 배양하는 'VeriFY' 프레임워크를 제안합니다. 기존의 사후 검증 방식이나 불확실할 때 무조건 답변을 거부하게 하는 방식과 달리, VeriFY는 모델이 답변을 생성하는 과정에서 스스로 검증 질문을 던지고 일관성을 판단하도록 훈련시킵니다. 특히 '단계별 손실 마스킹(Stage-level Loss Masking)' 기법을 도입하여, 학습 데이터(검증 트레이스) 내에 포함된 잘못된 정보(환각)는 학습하지 않도록 손실 계산에서 제외하면서도, 검증 논리와 판단 과정은 학습하도록 설계되었습니다. 실험 결과, VeriFY는 정답률(Recall)의 저하를 최소화하면서 환각 발생률을 크게 감소시켰으며, 이는 모델이 '무엇을 모르는지'를 더 정확하게 인지하고 합리적으로 기권할 수 있음을 보여줍니다.

Key Innovations

  • 학습 단계에서 자기 검증 과정을 내재화하는 'VeriFY' 프레임워크
  • 초기 답변, 검증 질문, 재답변, 일관성 판단으로 이어지는 '구조화된 검증 트레이스(Verification Traces)' 도입
  • 환각이 포함된 답변 구간은 학습에서 제외하고 검증 논리만 학습하는 '단계별 손실 마스킹(Stage-level Loss Masking)' 기법
  • 불필요한 답변 거부를 줄이고 환각 감소와의 균형을 평가하는 새로운 지표 'Hallucination F1' 제안

Learning & Inference Impact

학습 과정에서는 일반적인 정답 데이터 외에 모델이 생성한 잠재적 오류가 포함된 검증 트레이스 데이터를 사용합니다. 이때 핵심은 손실 마스킹(Loss Masking)을 통해 모델이 잘못된 사실 자체를 '지식'으로 학습하는 것을 방지하고, 오류를 탐지하는 '추론 과정'만을 학습하게 한다는 점입니다. 추론 과정에서 모델은 단순 답변만 내놓는 것이 아니라, 학습된 대로 검증 생각 과정(Trace)을 함께 생성합니다. 이는 추론 시 생성 토큰 수를 증가시켜 약간의 레이턴시를 발생시키지만, 외부 검색이나 다수 샘플링(Self-Consistency)과 같은 값비싼 후처리 과정 없이 단일 모델 생성만으로 높은 신뢰성을 확보할 수 있게 합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!