2601.19245v5 Jan 27, 2026 cs.AI

도메인 내 탐지 그 이상: 교차 도메인 환각 탐지를 위한 SpikeScore

Beyond In-Domain Detection: SpikeScore for Cross-Domain Hallucination Detection

Yongxin Deng
Yongxin Deng
Citations: 47
h-index: 4
Zhen Fang
Zhen Fang
Citations: 12
h-index: 2
Ling Chen
Ling Chen
Citations: 3
h-index: 1
Yixuan Li
Yixuan Li
Citations: 142
h-index: 6

환각 탐지는 대규모 언어 모델(LLM)을 실제 환경에 적용하는 데 매우 중요합니다. 기존의 환각 탐지 방법은 학습 및 테스트 데이터가 동일한 도메인에서 왔을 때 높은 성능을 보이지만, 교차 도메인 일반화 능력은 부족합니다. 본 논문에서는, 단일 도메인의 데이터를 사용하여 학습하되 다양한 관련 도메인에서 강력한 성능을 유지하는 것을 목표로 하는, 중요하지만 간과되어 온 '일반화 가능한 환각 탐지(GHD)' 문제를 연구합니다. GHD를 연구하는 과정에서, LLM의 초기 응답에 따른 다중 턴 대화를 시뮬레이션하면서 흥미로운 현상을 관찰했습니다. 환각으로 시작된 다중 턴 대화는 사실 기반 대화에 비해 다양한 도메인에서 더 큰 불확실성 변동을 보입니다. 이러한 현상을 바탕으로, 다중 턴 대화에서의 급격한 변동을 정량화하는 새로운 지표인 SpikeScore를 제안합니다. 이론적 분석과 실험적 검증을 통해, SpikeScore가 환각 및 비환각 응답 간에 강력한 교차 도메인 분리 성능을 달성한다는 것을 입증했습니다. 여러 LLM과 벤치마크를 대상으로 한 실험 결과, SpikeScore 기반 탐지 방법은 대표적인 기본 모델보다 교차 도메인 일반화 성능이 뛰어나며, 고급 일반화 방법보다 우수한 성능을 보여줍니다. 이는 본 연구 방법이 교차 도메인 환각 탐지에 효과적임을 입증합니다.

Original Abstract

Hallucination detection is critical for deploying large language models (LLMs) in real-world applications. Existing hallucination detection methods achieve strong performance when the training and test data come from the same domain, but they suffer from poor cross-domain generalization. In this paper, we study an important yet overlooked problem, termed generalizable hallucination detection (GHD), which aims to train hallucination detectors on data from a single domain while ensuring robust performance across diverse related domains. In studying GHD, we simulate multi-turn dialogues following LLMs' initial response and observe an interesting phenomenon: hallucination-initiated multi-turn dialogues universally exhibit larger uncertainty fluctuations than factual ones across different domains. Based on the phenomenon, we propose a new score SpikeScore, which quantifies abrupt fluctuations in multi-turn dialogues. Through both theoretical analysis and empirical validation, we demonstrate that SpikeScore achieves strong cross-domain separability between hallucinated and non-hallucinated responses. Experiments across multiple LLMs and benchmarks demonstrate that the SpikeScore-based detection method outperforms representative baselines in cross-domain generalization and surpasses advanced generalization-oriented methods, verifying the effectiveness of our method in cross-domain hallucination detection.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!