관계적 선형성이 환각 현상의 예측 지표
Relational Linearity is a Predictor of Hallucinations
환각 현상은 대규모 언어 모델(LLM)의 주요 문제점 중 하나입니다. 본 연구에서는 '글렌 구울드는 어떤 악기를 연주했는가?'와 같은 질문에 대한 답변에서 발생하는 환각 현상에 주목합니다. 특히, 모델이 알지 못하는 가상의 개체에 대한 질문을 통해 이러한 현상을 분석합니다. 놀랍게도, Gemma-7B-IT와 같은 중형 모델에서 환각 현상이 빈번하게 발생하며, 모델은 환각된 정보가 자신의 지식의 일부가 아니라는 것을 인식하는 데 어려움을 겪습니다. 우리는 이러한 환각 현상의 중요한 원인이 관계의 선형성에 있다고 가정합니다. 선형 관계는 추상적으로 저장되는 경향이 있어, LLM이 자신의 지식을 평가하는 데 어려움을 겪는 반면, 비선형 관계는 직접적으로 저장되는 경향이 있어, 지식 평가가 더 쉬워집니다. 이러한 가설을 검증하기 위해, 우리는 여섯 가지 관계에 대한 6000개의 가상 개체로 구성된 데이터셋인 SyntHal을 구축했습니다. 4개의 모델을 사용하여 실험을 진행했으며, 각 관계에 대해 SyntHal에서의 환각 발생률을 측정하고, $Δrac{cos}{}$을 사용하여 관계의 선형성을 측정했습니다. 그 결과, 관계적 선형성과 환각 발생률 사이에 강한 상관관계($r ext{은 } [.78,.82]$ 범위)가 나타났으며, 이는 관계의 삼중항이 저장되는 방식이 모델이 자신의 지식을 얼마나 잘 평가할 수 있는지에 영향을 미치는 요인이라는 우리의 가설을 뒷받침합니다. 이러한 발견은 환각 현상을 관리하는 방법에 대한 시사점을 제공하며, LLM에서 사실 지식의 표현을 개선하기 위한 새로운 연구 방향을 제시합니다.
Hallucination is a central failure mode in large language models (LLMs). We focus on hallucinations of answers to questions like: "Which instrument did Glenn Gould play?", but we ask these questions for synthetic entities that are unknown to the model. Surprisingly, we find that medium-size models like Gemma-7B-IT frequently hallucinate, i.e., they have difficulty recognizing that the hallucinated fact is not part of their knowledge. We hypothesize that an important factor in causing these hallucinations is the linearity of the relation: linear relations tend to be stored more abstractly, making it difficult for the LLM to assess its knowledge; the facts of nonlinear relations tend to be stored more directly, making knowledge assessment easier. To investigate this hypothesis, we create SyntHal, a dataset of 6000 synthetic entities for six relations. In our experiments with four models, we determine, for each relation, the hallucination rate on SyntHal and also measure its linearity, using $Δ\cos$. We find a strong correlation ($r \in [.78,.82]$) between relational linearity and hallucination rate, providing evidence for our hypothesis that the underlying storage of triples of a relation is a factor in how well a model can self-assess its knowledge. This finding has implications for how to manage hallucination behavior and suggests new research directions for improving the representation of factual knowledge in LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.