진실성으로 향하는 두 가지 경로: LLM 환각의 내재적 인코딩에 대한 연구
Two Pathways to Truthfulness: On the Intrinsic Encoding of LLM Hallucinations
뛰어난 기능을 갖춘 대규모 언어 모델(LLM)은 종종 환각 현상을 일으킵니다. 기존 연구에 따르면 LLM의 내부 상태는 진실성과 관련된 풍부한 정보를 담고 있지만, 이러한 정보의 기원과 작동 방식은 아직 명확하지 않습니다. 본 논문에서는 진실성 징후가 두 가지 서로 다른 정보 경로를 통해 발생하는 것을 보여줍니다. (1) 질문-응답 정보 흐름에 의존하는 '질문-고정 경로'(Question-Anchored pathway)와 (2) 생성된 응답 자체에서 독립적인 증거를 파생하는 '응답-고정 경로'(Answer-Anchored pathway)입니다. 먼저 어텐션 제거 및 토큰 패치를 통해 이러한 경로를 검증하고 분리합니다. 이후 이 두 가지 메커니즘의 주목할 만하고 흥미로운 특징들을 밝혀냅니다. 추가적인 실험 결과, (1) 두 가지 메커니즘은 LLM의 지식 경계와 밀접하게 관련되어 있으며, (2) 내부 표현은 이들 간의 차이를 인지하고 있음을 확인했습니다. 마지막으로, 이러한 통찰력 있는 연구 결과를 바탕으로 환각 탐지 성능을 향상시키는 두 가지 응용 분야를 제안합니다. 전반적으로, 본 연구는 LLM이 내부적으로 진실성을 어떻게 인코딩하는지에 대한 새로운 통찰력을 제공하며, 보다 신뢰할 수 있고 자기 인식적인 생성 시스템 개발을 위한 방향을 제시합니다.
Despite their impressive capabilities, large language models (LLMs) frequently generate hallucinations. Previous work shows that their internal states encode rich signals of truthfulness, yet the origins and mechanisms of these signals remain unclear. In this paper, we demonstrate that truthfulness cues arise from two distinct information pathways: (1) a Question-Anchored pathway that depends on question-answer information flow, and (2) an Answer-Anchored pathway that derives self-contained evidence from the generated answer itself. First, we validate and disentangle these pathways through attention knockout and token patching. Afterwards, we uncover notable and intriguing properties of these two mechanisms. Further experiments reveal that (1) the two mechanisms are closely associated with LLM knowledge boundaries; and (2) internal representations are aware of their distinctions. Finally, building on these insightful findings, two applications are proposed to enhance hallucination detection performance. Overall, our work provides new insight into how LLMs internally encode truthfulness, offering directions for more reliable and self-aware generative systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.