FaithSCAN: 모델 기반, 단일 패스 환각 탐지: 신뢰성 있는 시각 질의 응답을 위한 방법
FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering
시각 질의 응답(VQA)에서 발생하는 환각은 언어 모델이 유창하지만 시각적으로 근거가 없는 답변을 생성할 때 발생하며, 이는 안전이 중요한 응용 분야에서 모델의 신뢰성을 심각하게 저해합니다. 기존의 환각 탐지 방법은 크게 두 가지 범주로 나뉩니다. 첫째는 보조 모델 또는 지식 베이스에 의존하는 외부 검증 방식이고, 둘째는 반복적인 샘플링 또는 불확실성 추정치를 사용하는 불확실성 기반 방식입니다. 전자는 높은 계산 비용이 필요하며 외부 자원의 품질에 의해 제한되는 반면, 후자는 모델의 불확실성의 제한적인 측면만을 포착하며 모델의 다양한 실패 모드와 관련된 풍부한 내부 신호를 충분히 탐색하지 못합니다. 따라서 이러한 두 가지 방식 모두 효율성, 견고성 및 탐지 성능 측면에서 근본적인 한계를 가지고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 FaithSCAN을 제안합니다. FaithSCAN은 VLM(Vision-Language Model)의 풍부한 내부 신호를 활용하여 환각을 탐지하는 경량화된 네트워크입니다. 이러한 신호에는 토큰 수준의 디코딩 불확실성, 중간 시각 표현 및 양방향 모드 정렬 특징이 포함됩니다. 이러한 신호는 분기별 증거 인코딩 및 불확실성 기반 어텐션을 통해 통합됩니다. 또한, 우리는 LLM-as-a-Judge 패러다임을 VQA 환각 탐지에 적용하고, 모델에 의존적인 감독 신호를 자동으로 생성하는 저렴한 전략을 제안합니다. 이를 통해 비용이 많이 드는 인간 라벨 없이도 높은 정확도를 유지하면서 감독 학습을 수행할 수 있습니다. 여러 VQA 벤치마크에서의 실험 결과, FaithSCAN은 기존 방법보다 효과성과 효율성 모두에서 크게 뛰어난 성능을 보였습니다. 심층적인 분석 결과, 환각은 시각 인식, 양방향 추론 및 언어 디코딩에서 발생하는 체계적인 내부 상태 변화에서 비롯됩니다. 다양한 내부 신호는 상호 보완적인 진단 정보를 제공하며, 환각 패턴은 VLM 아키텍처에 따라 다르다는 점이 밝혀졌습니다. 이는 다중 모드 환각의 근본적인 원인에 대한 새로운 통찰력을 제공합니다.
Faithfulness hallucinations in VQA occur when vision-language models produce fluent yet visually ungrounded answers, severely undermining their reliability in safety-critical applications. Existing detection methods mainly fall into two categories: external verification approaches relying on auxiliary models or knowledge bases, and uncertainty-driven approaches using repeated sampling or uncertainty estimates. The former suffer from high computational overhead and are limited by external resource quality, while the latter capture only limited facets of model uncertainty and fail to sufficiently explore the rich internal signals associated with the diverse failure modes. Both paradigms thus have inherent limitations in efficiency, robustness, and detection performance. To address these challenges, we propose FaithSCAN: a lightweight network that detects hallucinations by exploiting rich internal signals of VLMs, including token-level decoding uncertainty, intermediate visual representations, and cross-modal alignment features. These signals are fused via branch-wise evidence encoding and uncertainty-aware attention. We also extend the LLM-as-a-Judge paradigm to VQA hallucination and propose a low-cost strategy to automatically generate model-dependent supervision signals, enabling supervised training without costly human labels while maintaining high detection accuracy. Experiments on multiple VQA benchmarks show that FaithSCAN significantly outperforms existing methods in both effectiveness and efficiency. In-depth analysis shows hallucinations arise from systematic internal state variations in visual perception, cross-modal reasoning, and language decoding. Different internal signals provide complementary diagnostic cues, and hallucination patterns vary across VLM architectures, offering new insights into the underlying causes of multimodal hallucinations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.