GazeVLM: 내부 어텐션 제어를 통한 능동 시각을 활용한 다중 모드 추론
GazeVLM: Active Vision via Internal Attention Control for Multimodal Reasoning
인간의 시각적 추론은 능동적인 시각 과정을 통해 이루어지는데, 이는 메타인지적 제어가 상위 레벨의 목표 지향적인 주의를 유도하여, 과녁(fovea) 영역의 시선을 작업과 관련된 세부 사항으로 동적으로 이동시키면서 동시에 전체적인 장면을 주변 시야로 인지하는 과정입니다. 반면, 현대의 시각-언어 모델(VLM)은 시각 정보를 수동적으로 처리하며, 공간적 추론을 저해하고 언어적 환각을 유발하는 방대한 토큰 컨텍스트의 정적 누적에 의존합니다. 본 논문에서는 이러한 패러다임의 전환을 제안합니다. GazeVLM은 다중 모드 아키텍처로, 어텐션 자원 활용에 대한 메타인지적 통제 기능을 내재화하여 추론 과정에 직접 통합합니다. GazeVLM은 VLM이 자율적으로 시선 토큰($ exttt{<LOOK>}$)을 생성하도록 함으로써, 자체적인 인과적 어텐션 마스크에 대한 상위 레벨의 제어 메커니즘을 구축합니다. 모델은 동적으로 초점 영역을 결정하며, 지속적인 억제 편향을 유발하여 관련 없는 시각적 특징을 억제하고, 공간적 선택적 주의를 구현하며, 과녁 고정 현상을 시뮬레이션합니다. 로컬 추론이 완료되면, 편향이 해제되어 전체적인 시야를 원활하게 복구합니다. 이러한 아키텍처는 모델이 외부적인 도구(예: 크롭 도구)나 로컬 시각 패치에서 파생된 추가적인 시각적 토큰을 활용한 컨텍스트 윈도우 확장에 의존하지 않고, 전역적인 공간 인지와 국소적인 집중 추론 간을 유연하게 전환할 수 있도록 합니다. 본 논문에서 제안하는 Group Relative Policy Optimization (GRPO) 절차를 통해 학습된 40억 개의 파라미터를 가진 GazeVLM은 강력한 고해상도 다중 모드 추론 성능을 제공하며, HRBench-4k 및 HRBench-8k 데이터셋에서 동일 파라미터 클래스의 최첨단 VLM 모델보다 약 4% 더 높은 성능을 보였고, 이미지 기반 추론 파이프라인보다 5% 이상 더 높은 성능을 달성했습니다.
Human visual reasoning is governed by active vision, a process where metacognitive control drives top-down goal-directed attention, dynamically routing foveal focus toward task-relevant details while maintaining peripheral awareness of the global scene. In contrast, modern Vision-Language Models (VLMs) process visual information passively, relying on the static accumulation of massive token contexts that dilute spatial reasoning and induce linguistic hallucinations. Here we propose the following paradigm shift: GazeVLM, a multimodal architecture that internalizes this metacognitive oversight over its deployment of attention resources directly into the reasoning loop. By empowering the VLM to autonomously generate gaze tokens ($\texttt{<LOOK>}$), GazeVLM establishes a top-down control mechanism over its own causal attention mask. The model dynamically dictates its focal intent, triggering a continuous suppression bias that dampens irrelevant visual features, implementing spatial selective attention and simulating foveal fixation. Once local reasoning concludes, the bias lifts, seamlessly restoring the global view. This architecture enables the model to fluidly transition between global spatial awareness and localized focal reasoning without relying on external agentic contraptions like cropping tools, or inflating the context window with additional visual tokens derived from localized visual patches. Trained with a bespoke Group Relative Policy Optimization (GRPO) procedure that rewards valid grounding, our 4B-parameter GazeVLM delivers strong high-resolution multimodal reasoning performance, surpassing state-of-the-art VLMs in its parameter class by nearly 4% and agentic multimodal pipelines built around thinking with images by more than 5% on HRBench-4k and HRBench-8k.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.