좁은 시야에서 광범위한 시야로: 어텐션 기반 초기화가 다중 모드 추론에 미치는 영향
From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
다중 모드 대규모 추론 모델(MLRM)의 학습에서 초기화 단계는 중요한 역할을 하지만, 그 작동 방식은 아직 충분히 이해되지 않고 있습니다. 이 단계를 분석하기 위해, 우리는 모델이 시각적 토큰에 얼마나 집중하는지를 정량화하는 어텐션 기반 지표인 시각 어텐션 점수(VAS)를 도입했습니다. 연구 결과, 추론 성능은 VAS와 강한 상관관계를 보입니다(r=0.9616). VAS 값이 높은 모델은 훨씬 더 강력한 다중 모드 추론 능력을 보여줍니다. 놀랍게도, 다중 모드 초기화는 VAS를 크게 향상시키지 못하고, 오히려 기본 모델과 유사한 어텐션 분포를 나타내는 반면, 텍스트만 사용한 초기화는 VAS를 명확하게 증가시킵니다. 우리는 이러한 역설적인 현상을 'lazy attention localization'이라고 명명했습니다. 이 현상의 인과적 역할을 검증하기 위해, 재학습 없이 추론 과정에서 어텐션 할당을 직접 조절하는 훈련-불필요한 방법을 설계했습니다. 이를 통해 재학습 없이 1~2%의 성능 향상을 달성했습니다. 이러한 통찰력을 바탕으로, 우리는 시각적 앵커 데이터 합성, 어텐션 기반 목표, 시각적 앵커 보상 형성을 통합한 종합적인 초기화 프레임워크인 '어텐션 가이드 시각적 앵커 및 반사(AVAR)'를 제안합니다. Qwen2.5-VL-7B에 AVAR를 적용한 결과, 7가지 다중 모드 추론 벤치마크에서 평균 7.0%의 성능 향상을 보였습니다. 추가적인 분석 결과, AVAR의 각 구성 요소가 전체 성능 향상에 단계적으로 기여하는 것으로 확인되었습니다. 코드, 데이터 및 모델은 https://github.com/lrlbbzl/Qwen-AVAR 에서 확인할 수 있습니다.
The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1$-$2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.