미라지: 시각적 이해의 환상
Mirage The Illusion of Visual Understanding
다중 모드 인공지능 시스템은 다양한 실제 작업에서 놀라운 성능을 보여주지만, 시각-언어 추론의 작동 방식은 여전히 매우 부족하게 이해되고 있습니다. 우리는 시각 정보를 처리하고 통합하는 방식에 대한 기존의 가정을 도전하는 세 가지 연구 결과를 보고합니다. 첫째, 최첨단 모델은 제공되지 않은 이미지에 대해 상세한 이미지 설명을 생성하고, 병리학적 편향을 포함한 다양한 추론 과정을 보여줍니다. 우리는 이러한 현상을 '미라지 추론'이라고 명명합니다. 둘째, 이미지 입력 없이도 모델은 일반 및 의료 다중 모드 벤치마크에서 놀랍도록 높은 점수를 달성하며, 이는 모델의 유용성과 설계에 대한 의문을 제기합니다. 가장 극단적인 경우, 저희 모델은 이미지에 접근할 수 없는 상태에서도 표준 흉부 X선 질의응답 벤치마크에서 최고 순위를 기록했습니다. 셋째, 모델에게 명시적으로 이미지를 사용하지 않고 답을 추측하도록 지시했을 때, 암묵적으로 이미지가 제공되었다고 가정하도록 유도하는 것보다 성능이 현저히 저하되었습니다. 명시적인 추측은 더 보수적인 응답 방식을 활성화하는 반면, 모델이 이미지가 제공된 것처럼 행동하는 '미라지' 방식과는 대조적입니다. 이러한 연구 결과는 시각-언어 모델의 추론 및 평가 방식에 근본적인 취약점을 드러내며, 특히 의료 분야에서 잘못된 AI가 가장 큰 결과를 초래할 수 있으므로, 텍스트적인 단서를 통해 비시각적 추론을 가능하게 하는 요소를 제거하는 개인화된 벤치마크의 시급한 필요성을 강조합니다. 우리는 다중 모드 AI 시스템의 공정하고 시각 기반 평가를 위한 원칙적인 솔루션으로 B-Clean을 소개합니다.
Multimodal AI systems have achieved remarkable performance across a broad range of real-world tasks, yet the mechanisms underlying visual-language reasoning remain surprisingly poorly understood. We report three findings that challenge prevailing assumptions about how these systems process and integrate visual information. First, Frontier models readily generate detailed image descriptions and elaborate reasoning traces, including pathology-biased clinical findings, for images never provided; we term this phenomenon mirage reasoning. Second, without any image input, models also attain strikingly high scores across general and medical multimodal benchmarks, bringing into question their utility and design. In the most extreme case, our model achieved the top rank on a standard chest X-ray question-answering benchmark without access to any images. Third, when models were explicitly instructed to guess answers without image access, rather than being implicitly prompted to assume images were present, performance declined markedly. Explicit guessing appears to engage a more conservative response regime, in contrast to the mirage regime in which models behave as though images have been provided. These findings expose fundamental vulnerabilities in how visual-language models reason and are evaluated, pointing to an urgent need for private benchmarks that eliminate textual cues enabling non-visual inference, particularly in medical contexts where miscalibrated AI carries the greatest consequence. We introduce B-Clean as a principled solution for fair, vision-grounded evaluation of multimodal AI systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.