2601.05201v1 Jan 08, 2026 cs.CV

이미지-텍스트 모델에서 프롬프트 유발 환각의 메커니즘

Mechanisms of Prompt-Induced Hallucination in Vision-Language Models

Ritambhara Singh
Ritambhara Singh
Citations: 198
h-index: 9
William Rudman
William Rudman
Citations: 79
h-index: 6
Michal Golovanevsky
Michal Golovanevsky
Citations: 167
h-index: 4
Dana Arad
Dana Arad
Citations: 102
h-index: 4
Yonatan Belinkov
Yonatan Belinkov
Citations: 183
h-index: 6
Carsten Eickhoff
Carsten Eickhoff
Citations: 78
h-index: 4
Kyle Mahowald
Kyle Mahowald
Citations: 1,043
h-index: 9

대규모 이미지-텍스트 모델(VLM)은 뛰어난 성능을 보이지만, 종종 시각적 증거보다 텍스트 프롬프트를 우선시하여 환각 현상을 일으킵니다. 본 연구에서는 통제된 객체 계수 환경에서 이러한 문제점을 분석했습니다. 구체적으로, 프롬프트가 이미지 내 객체의 수를 과장하는 경우(예: 세 개의 수련이 있는 이미지에 대해 모델에게 네 개의 수련을 묘사하도록 요청), 모델이 이러한 과장된 정보를 따르는 현상을 관찰했습니다. 객체의 수가 적을 때는 모델이 종종 이러한 과장을 수정하지만, 객체의 수가 증가함에 따라 모델은 불일치에도 불구하고 프롬프트에 점점 더 부합하는 경향을 보입니다. 세 개의 VLM을 대상으로 실시한 메커니즘 분석을 통해, 모델을 추가 훈련하지 않고도 프롬프트 유발 환각(PIH)을 최소 40% 이상 감소시키는 특정 어텐션 헤드 집합을 식별했습니다. 모델별로 PIH 헤드는 프롬프트를 복사하는 데 다양한 방식으로 관여합니다. 우리는 이러한 차이점을 분석하고, PIH 제거가 시각적 증거에 대한 수정 능력을 향상시킨다는 것을 보여주었습니다. 본 연구 결과는 프롬프트 유발 환각을 유발하는 내부 메커니즘에 대한 통찰력을 제공하며, 이러한 현상이 모델별로 어떻게 구현되는지에 대한 차이점을 밝히고 있습니다.

Original Abstract

Large vision-language models (VLMs) are highly capable, yet often hallucinate by favoring textual prompts over visual evidence. We study this failure mode in a controlled object-counting setting, where the prompt overstates the number of objects in the image (e.g., asking a model to describe four waterlilies when only three are present). At low object counts, models often correct the overestimation, but as the number of objects increases, they increasingly conform to the prompt regardless of the discrepancy. Through mechanistic analysis of three VLMs, we identify a small set of attention heads whose ablation substantially reduces prompt-induced hallucinations (PIH) by at least 40% without additional training. Across models, PIH-heads mediate prompt copying in model-specific ways. We characterize these differences and show that PIH ablation increases correction toward visual evidence. Our findings offer insights into the internal mechanisms driving prompt-induced hallucinations, revealing model-specific differences in how these behaviors are implemented.

2 Citations
0 Influential
4.5 Altmetric
24.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!