도메인 내 탐지 그 이상: 교차 도메인 환각 탐지를 위한 SpikeScore
Beyond In-Domain Detection: SpikeScore for Cross-Domain Hallucination Detection
환각 탐지는 대규모 언어 모델(LLM)을 실제 환경에 적용하는 데 매우 중요합니다. 기존의 환각 탐지 방법은 학습 및 테스트 데이터가 동일한 도메인에서 왔을 때 높은 성능을 보이지만, 교차 도메인 일반화 능력은 부족합니다. 본 논문에서는, 단일 도메인의 데이터를 사용하여 학습하되 다양한 관련 도메인에서 강력한 성능을 유지하는 것을 목표로 하는, 중요하지만 간과되어 온 '일반화 가능한 환각 탐지(GHD)' 문제를 연구합니다. GHD를 연구하는 과정에서, LLM의 초기 응답에 따른 다중 턴 대화를 시뮬레이션하면서 흥미로운 현상을 관찰했습니다. 환각으로 시작된 다중 턴 대화는 사실 기반 대화에 비해 다양한 도메인에서 더 큰 불확실성 변동을 보입니다. 이러한 현상을 바탕으로, 다중 턴 대화에서의 급격한 변동을 정량화하는 새로운 지표인 SpikeScore를 제안합니다. 이론적 분석과 실험적 검증을 통해, SpikeScore가 환각 및 비환각 응답 간에 강력한 교차 도메인 분리 성능을 달성한다는 것을 입증했습니다. 여러 LLM과 벤치마크를 대상으로 한 실험 결과, SpikeScore 기반 탐지 방법은 대표적인 기본 모델보다 교차 도메인 일반화 성능이 뛰어나며, 고급 일반화 방법보다 우수한 성능을 보여줍니다. 이는 본 연구 방법이 교차 도메인 환각 탐지에 효과적임을 입증합니다.
Hallucination detection is critical for deploying large language models (LLMs) in real-world applications. Existing hallucination detection methods achieve strong performance when the training and test data come from the same domain, but they suffer from poor cross-domain generalization. In this paper, we study an important yet overlooked problem, termed generalizable hallucination detection (GHD), which aims to train hallucination detectors on data from a single domain while ensuring robust performance across diverse related domains. In studying GHD, we simulate multi-turn dialogues following LLMs' initial response and observe an interesting phenomenon: hallucination-initiated multi-turn dialogues universally exhibit larger uncertainty fluctuations than factual ones across different domains. Based on the phenomenon, we propose a new score SpikeScore, which quantifies abrupt fluctuations in multi-turn dialogues. Through both theoretical analysis and empirical validation, we demonstrate that SpikeScore achieves strong cross-domain separability between hallucinated and non-hallucinated responses. Experiments across multiple LLMs and benchmarks demonstrate that the SpikeScore-based detection method outperforms representative baselines in cross-domain generalization and surpasses advanced generalization-oriented methods, verifying the effectiveness of our method in cross-domain hallucination detection.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.