환각 베이스인: LLM 환각 현상을 이해하고 제어하기 위한 동적 프레임워크
Hallucination Basins: A Dynamic Framework for Understanding and Controlling LLM Hallucinations
대규모 언어 모델(LLM)은 사실과 다른 내용을 유창하게 생성하는 환각 현상을 보입니다. 본 연구에서는 환각이 잠재 공간 내의 작업 의존적인 베이스 구조에서 비롯된다는 기하학적 동적 시스템 프레임워크를 제시합니다. 여러 공개 모델 및 벤치마크에서 자기 회귀적인 은닉 상태 추적을 통해, 분리 현상은 보편적이지 않고 작업 의존적이라는 것을 발견했습니다. 즉, 사실 기반 설정에서는 베이스 분리가 더 뚜렷한 반면, 요약 및 오해를 내포하는 설정에서는 일반적으로 안정성이 낮고 종종 겹치는 경향이 있습니다. 이러한 현상을 작업 복잡성 및 다중 베이스 정리로 공식화하고, L-계층 트랜스포머에서 베이스의 출현을 특성화하며, 기하학적 정보를 활용한 제어를 통해 재학습 없이 환각 발생 가능성을 줄일 수 있음을 보여줍니다.
Large language models (LLMs) hallucinate: they produce fluent outputs that are factually incorrect. We present a geometric dynamical systems framework in which hallucinations arise from task-dependent basin structure in latent space. Using autoregressive hidden-state trajectories across multiple open-source models and benchmarks, we find that separability is strongly task-dependent rather than universal: factoid settings can show clearer basin separation, whereas summarization and misconception-heavy settings are typically less stable and often overlap. We formalize this behavior with task-complexity and multi-basin theorems, characterize basin emergence in L-layer transformers, and show that geometry-aware steering can reduce hallucination probability without retraining.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.