내부 상태 분석 및 클러스터링을 통한 LLM의 사실 오류 생성 경향 시각화 및 성능 평가
Visualizing and Benchmarking LLM Factual Hallucination Tendencies via Internal State Analysis and Clustering
대규모 언어 모델(LLM)은 종종 사실과 다른 내용을 생성하는 환각 현상을 보이며, 이는 의학이나 법률과 같은 민감한 분야에서 특히 해로울 수 있습니다. 이러한 현상을 체계적으로 연구하기 위해, 우리는 오해를 불러일으키거나 조작된 인용문을 통해 유발되는 환각 반응을 포착하고 평가하도록 설계된 데이터셋인 FalseCite를 소개합니다. GPT-4o-mini, Falcon-7B, 및 Mistral 7-B를 FalseCite 데이터셋에 적용한 결과, 특히 GPT-4o-mini에서 오해의 소지가 있는 인용문에 대한 잘못된 주장에 대한 환각 활동이 눈에 띄게 증가하는 것을 관찰했습니다. FalseCite로부터 얻은 응답을 사용하여 환각을 일으키는 모델의 내부 상태를 분석하고, 숨겨진 상태 벡터를 시각화하고 클러스터링할 수 있습니다. 이러한 분석을 통해, 환각 여부에 관계없이 숨겨진 상태 벡터는 뚜렷한 뿔 모양을 나타내는 경향이 있음을 확인했습니다. 본 연구는 FalseCite가 향후 LLM 연구에서 환각 현상을 평가하고 완화하는 데 잠재적인 기반이 될 수 있음을 강조합니다.
Large Language Models (LLMs) often hallucinate, generating nonsensical or false information that can be especially harmful in sensitive fields such as medicine or law. To study this phenomenon systematically, we introduce FalseCite, a curated dataset designed to capture and benchmark hallucinated responses induced by misleading or fabricated citations. Running GPT-4o-mini, Falcon-7B, and Mistral 7-B through FalseCite, we observed a noticeable increase in hallucination activity for false claims with deceptive citations, especially in GPT-4o-mini. Using the responses from FalseCite, we can also analyze the internal states of hallucinating models, visualizing and clustering the hidden state vectors. From this analysis, we noticed that the hidden state vectors, regardless of hallucination or non-hallucination, tend to trace out a distinct horn-like shape. Our work underscores FalseCite's potential as a foundation for evaluating and mitigating hallucinations in future LLM research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.