레이어의 목소리에 귀 기울여라: 레이어 간 불일치를 활용한 환각 현상 완화
Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement
사전 학습된 거대 언어 모델(LLM)은 유창하지만 사실과 다른 텍스트를 생성하는 경향이 있는데, 이를 환각 현상이라고 부르며, 이는 모델의 신뢰성과 다양한 후속 작업에서의 유용성을 저해합니다. 본 연구에서는 생성된 텍스트의 사실성은 모델 내부 레이어에서의 표현적 불안정성과 상관관계가 있을 것이라는 가설을 제시합니다. 이를 바탕으로, 중간 레이어의 신호를 활용하여 추론 시 환각 현상을 완화하는 새로운 훈련 불필요 디코딩 알고리즘인 CoCoA(Confusion and Consistency Aware) 디코더를 제안합니다. 중간 레이어의 불안정성을 정량화하는 두 가지 지표를 제안하고, 이를 사용하여 내부적으로 일관성이 낮고 사실과 거리가 먼 출력을 억제함으로써 모델이 더욱 내부적으로 일관되고 사실에 기반한 출력을 생성하도록 유도합니다. 또한, CoCoA-SIG라는 자기 정보 게이팅 방식을 도입하여, 예기치 못한 불안정한 텍스트 생성에 대해 동적으로 페널티를 적용합니다. 질문 답변, 요약, 코드 생성 등 다양한 작업에 대한 광범위한 실험 결과, CoCoA는 Llama-3, Qwen-2.5, Mistral 등 다양한 모델 패밀리에 걸쳐 사실 정확도를 크게 향상시키는 것을 보여줍니다. CoCoA는 모델 자체의 신호를 활용하여, 모델 재학습 없이 추론 시 LLM의 신뢰성을 향상시키는 효과적이고 광범위하게 적용 가능한 방법을 제공합니다.
Pretrained Large Language Models (LLMs) are prone to generating fluent yet factually incorrect text-a phenomenon known as hallucinations, undermining their reliability and utility in downstream tasks. We hypothesize that a generated text span's factuality is correlated with its representational instability across the model's internal layers. Based on this, we propose the CoCoA (Confusion and Consistency Aware) decoder, a novel, training-free decoding algorithm that mitigates hallucinations at inference time by listening to these signals in the middle layers. We propose two metrics to quantify this instability in the middle layers, and use it to penalize outputs that exhibit high internal confusion, thereby steering the model towards more internally consistent and factually grounded outputs. We further propose a self-information gated variant, CoCoA-SIG, that dynamically modulates this penalty to selectively target high-surprise, unstable generations. Extensive experiments on diverse tasks, including question-answering, summarization and code generation demonstrate that CoCoA significantly improves factual correctness across multiple model families (e.g., Llama-3, Qwen-2.5, Mistral). By leveraging model-intrinsic signals, CoCoA offers an effective and broadly applicable method for enhancing the trustworthiness of LLMs at inference time, without requiring any model retraining.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.