2601.05547v1 Jan 09, 2026 cs.CV

VIB-Probe: 변분 정보 병목 현상을 활용하여 시각-언어 모델의 환각 현상을 탐지하고 완화하는 방법

VIB-Probe: Detecting and Mitigating Hallucinations in Vision-Language Models via Variational Information Bottleneck

Xiaohua Wang
Xiaohua Wang
Citations: 323
h-index: 7
Changze Lv
Changze Lv
Fudan Univerisity
Citations: 475
h-index: 10
Xiaoqing Zheng
Xiaoqing Zheng
Citations: 453
h-index: 9
Xuanjing Huang
Xuanjing Huang
Citations: 424
h-index: 9
Feiran Zhang
Feiran Zhang
Citations: 137
h-index: 3
Yixin Wu
Yixin Wu
Citations: 131
h-index: 2
Zhenghua Wang
Zhenghua Wang
Citations: 156
h-index: 4

시각-언어 모델(VLMs)은 다중 모드 작업에서 놀라운 발전을 보여주었지만, 여전히 환각 현상에 취약하며, 이는 생성된 텍스트가 기반이 되는 시각적 내용과 일치하지 않는 경우를 의미합니다. 기존의 환각 현상 탐지 방법은 주로 출력 로짓 또는 외부 검증 도구에 의존하며, 모델 내부 작동 메커니즘을 간과하는 경우가 많습니다. 본 연구에서는 내부 어텐션 헤드의 출력을 조사하여, 특정 헤드가 진실된 텍스트 생성을 위한 주요 정보를 담고 있다고 가정합니다. 그러나 시각-언어 구문 및 노이즈의 복잡성으로 인해 이러한 고차원 상태를 직접적으로 분석하는 것은 어렵습니다. 이러한 문제를 해결하기 위해, 변분 정보 병목(VIB) 이론을 활용하여 환각 현상을 탐지하고 완화하는 새로운 프레임워크인 VIB-Probe를 제안합니다. 우리의 방법은 정보 병목 원칙을 통해 의미 없는 요소를 제거하면서, 레이어와 헤드 전반에 걸쳐 차별적인 패턴을 추출합니다. 또한, VIB Probe의 기울기를 활용하여 환각 현상에 강한 인과적 영향을 미치는 어텐션 헤드를 식별하고, 추론 과정에서 환각 현상을 완화하기 위한 개입 전략을 도입합니다. 다양한 벤치마크에서의 광범위한 실험 결과, VIB-Probe는 기존의 방법들을 크게 능가하는 성능을 보여줍니다. 우리의 코드는 공개적으로 제공될 예정입니다.

Original Abstract

Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal tasks, but remain susceptible to hallucinations, where generated text deviates from the underlying visual content. Existing hallucination detection methods primarily rely on output logits or external verification tools, often overlooking their internal mechanisms. In this work, we investigate the outputs of internal attention heads, postulating that specific heads carry the primary signals for truthful generation.However, directly probing these high-dimensional states is challenging due to the entanglement of visual-linguistic syntax and noise. To address this, we propose VIB-Probe, a novel hallucination detection and mitigation framework leveraging the Variational Information Bottleneck (VIB) theory. Our method extracts discriminative patterns across layers and heads while filtering out semantic nuisances through the information bottleneck principle. Furthermore, by leveraging the gradients of our VIB probe, we identify attention heads with strong causal influence on hallucinations and introduce an inference-time intervention strategy for hallucination mitigation. Extensive experiments across diverse benchmarks demonstrate that VIB-Probe significantly outperforms existing baselines in both settings. Our code will be made publicly available.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!