2603.21693v1 Mar 23, 2026 cs.AI

신뢰도-증거 베이지안 이득을 이용한 의료 시각 질의응답 시스템의 결정론적 환각 탐지

Deterministic Hallucination Detection in Medical VQA via Confidence-Evidence Bayesian Gain

Ehsan Adeli
Ehsan Adeli
Citations: 6,516
h-index: 9
J. W. O'Sullivan
J. W. O'Sullivan
Citations: 5
h-index: 1
Tahoura Nedaee
Tahoura Nedaee
Citations: 5
h-index: 1
Euan A Ashley
Euan A Ashley
Citations: 164
h-index: 5
Mohammad Asadi
Mohammad Asadi
Citations: 28
h-index: 3

다중 모드 대규모 언어 모델(MLLM)은 의료 시각 질의응답(VQA) 분야에서 뛰어난 잠재력을 보여주지만, 입력 이미지와 모순되는 답변을 생성하는 환각 현상에 취약하여 임상 환경에서 심각한 위험을 초래할 수 있습니다. 기존의 환각 탐지 방법인 Semantic Entropy (SE) 및 Vision-Amplified Semantic Entropy (VASE)는 샘플당 10~20회의 확률적 생성이 필요하며, 의미론적 클러스터링을 위한 외부 자연어 추론 모델이 요구되어 계산 비용이 높고 실제 적용이 어렵습니다. 본 연구에서는 환각 답변이 모델 자체의 로그 확률에서 뚜렷한 특징을 나타낸다는 점을 발견했습니다. 구체적으로, 일관성 없는 토큰 수준의 신뢰도와 시각적 증거에 대한 낮은 민감성이 관찰되었습니다. 이러한 관찰을 바탕으로, 확률적 샘플링, 외부 모델, 또는 특정 작업에 대한 하이퍼파라미터가 필요 없는 결정론적인 환각 탐지 방법인 Confidence-Evidence Bayesian Gain (CEBaG)을 제안합니다. CEBaG는 두 가지 상호 보완적인 신호를 결합합니다. 첫째, 응답 토큰 간의 불일치한 신뢰도를 나타내는 토큰 수준의 예측 변이입니다. 둘째, 텍스트 기반 추론과 비교하여 이미지가 각 토큰의 예측을 얼마나 변화시키는지 측정하는 증거 크기입니다. 본 연구에서는 4개의 의료 MLLM과 3개의 VQA 벤치마크(총 16가지 실험 설정)를 사용하여 CEBaG를 평가했습니다. 그 결과, CEBaG는 16가지 설정 중 13가지에서 가장 높은 AUC를 달성했으며, 평균적으로 VASE보다 8 AUC 포인트 향상되었습니다. 또한, CEBaG는 완전히 결정론적이며 자체적으로 작동합니다. 논문 게재 시 코드를 공개할 예정입니다.

Original Abstract

Multimodal large language models (MLLMs) have shown strong potential for medical Visual Question Answering (VQA), yet they remain prone to hallucinations, defined as generating responses that contradict the input image, posing serious risks in clinical settings. Current hallucination detection methods, such as Semantic Entropy (SE) and Vision-Amplified Semantic Entropy (VASE), require 10 to 20 stochastic generations per sample together with an external natural language inference model for semantic clustering, making them computationally expensive and difficult to deploy in practice. We observe that hallucinated responses exhibit a distinctive signature directly in the model's own log-probabilities: inconsistent token-level confidence and weak sensitivity to visual evidence. Based on this observation, we propose Confidence-Evidence Bayesian Gain (CEBaG), a deterministic hallucination detection method that requires no stochastic sampling, no external models, and no task-specific hyperparameters. CEBaG combines two complementary signals: token-level predictive variance, which captures inconsistent confidence across response tokens, and evidence magnitude, which measures how much the image shifts per-token predictions relative to text-only inference. Evaluated across four medical MLLMs and three VQA benchmarks (16 experimental settings), CEBaG achieves the highest AUC in 13 of 16 settings and improves over VASE by 8 AUC points on average, while being fully deterministic and self-contained. The code will be made available upon acceptance.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!