더 깊은 사고, 약해진 집중: 다중 모드 대규모 언어 모델의 추론 과정 중 발생하는 인지 능력 저하 현상에 대한 이해 및 완화 방안
Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in Multimodal Large Language Models
다중 모드 대규모 언어 모델(MLLM)은 특히 시각 질의 응답(VQA) 작업에서, 복잡한 추론 과정에 들어가면 종종 인지 능력 저하를 겪습니다. 본 연구에서는 이러한 현상의 근본 원인을 주의 분산으로 규명했습니다. 다단계 추론 과정에서 모델의 시각적 주의는 산만해지고 질문과 관련된 영역에서 벗어나는 경향이 있으며, 이는 모델이 시각적 입력에 대한 '집중력'을 잃게 만드는 원인이 됩니다. 이 현상을 더 깊이 이해하기 위해, 우리는 MLLM의 주의 맵을 분석하고, 추론 프롬프트가 질문에 대한 답변에 중요한 영역에 대한 주의를 현저히 감소시킨다는 것을 관찰했습니다. 또한, 모델의 전체적인 이미지 토큰에 대한 주의 수준과 이미지 내 주의의 공간적 분산 정도 사이에 강한 상관관계가 있음을 확인했습니다. 이러한 통찰력을 바탕으로, 우리는 훈련 과정 없이 시각 영역 지향 주의(VRGA) 프레임워크를 제안합니다. 이 프레임워크는 엔트로피 기반의 기준을 사용하여 시각적 헤드를 선택하고, 이들의 주의 가중치를 재조정함으로써 모델이 추론 과정에서 질문과 관련된 영역에 집중하도록 유도합니다. 다양한 시각-언어 벤치마크에서 수행한 광범위한 실험 결과, 제안하는 방법은 인지 능력 저하를 효과적으로 완화하고, 시각적 연결 및 추론 정확도를 향상시키며, MLLM이 시각 정보를 처리하는 방식에 대한 해석 가능한 통찰력을 제공합니다.
Multimodal large language models (MLLMs) often suffer from perceptual impairments under extended reasoning modes, particularly in visual question answering (VQA) tasks. We identify attention dispersion as the underlying cause: during multi-step reasoning, the model's visual attention becomes scattered and drifts away from question-relevant regions, effectively "losing focus" on the visual input. To better understand this phenomenon, we analyze the attention maps of MLLMs and observe that reasoning prompts significantly reduce attention to regions critical for answering the question. We further find a strong correlation between the model's overall attention on image tokens and the spatial dispersiveness of its attention within the image. Leveraging this insight, we propose a training-free Visual Region-Guided Attention (VRGA) framework that selects visual heads based on an entropy-focus criterion and reweights their attention, effectively guiding the model to focus on question-relevant regions during reasoning. Extensive experiments on vision-language benchmarks demonstrate that our method effectively alleviates perceptual degradation, leading to improvements in visual grounding and reasoning accuracy while providing interpretable insights into how MLLMs process visual information.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.