기여도가 있는 곳에 보상을: 교차 모달 연결성이 MLLM 추론을 위한 정밀 강화 학습을 이끈다
Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning
검증 가능한 보상을 활용한 강화 학습(RLVR)은 멀티모달 대규모 언어 모델(MLLM)의 추론 능력을 크게 향상시켰지만, 추론 과정에서 시각적 증거가 어떻게 통합되는지는 여전히 잘 알려져 있지 않습니다. 우리는 교차 모달 어텐션 연결성의 관점에서 멀티모달 RLVR을 탐구하였으며, 오직 소수의 토큰(약 15%)만이 강력한 시각-텍스트 결합을 보인다는 사실을 발견했습니다. 이러한 높은 연결성의 토큰들은 추론의 근거를 이미지에 두게 하는 앵커 역할을 하는 반면, 대다수의 토큰은 언어적 패턴을 따릅니다. RLVR 훈련 과정에서 기여도 할당은 자연스럽게 이러한 앵커들에 집중되며, 시간이 지남에 따라 시각적 그라운딩을 더욱 정교하게 만듭니다. 이러한 통찰을 바탕으로, 우리는 어텐션 위상의 그래프 기반 클러스터링을 통해 높은 연결성을 가진 토큰만을 선택적으로 강화하는 경량 프레임워크인 앵커-토큰 강화 학습(AT-RL)을 제안합니다. 시리즈(3B-32B) 전반에 걸쳐 평가한 결과, AT-RL은 불과 1.2%의 오버헤드만으로 32B 모델이 MathVista(80.2)에서 72B-Instruct 기준 모델을 능가하게 만들었으며, STEM, 비디오 및 일반 작업 전반에서 일관된 성능 향상을 보였습니다. 반대로, 연결성이 낮은 토큰들로만 훈련할 경우 심각한 성능 저하가 발생했으며, 이는 효과적인 멀티모달 RL이 시각적 앵커에 대한 정밀한 기여도 할당에 달려 있음을 확인시켜 줍니다. 우리의 연구는 추론 품질이 토큰의 양이 아니라 교차 모달 앵커링의 충실도에 의해 결정된다는 것을 밝혀냈습니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Multimodal Large Language Models (MLLMs), yet how visual evidence is integrated during reasoning remains poorly understood. We explore multimodal RLVR through the lens of cross-modal attention connectivity and find that only a small fraction of tokens (approximately 15%) exhibit strong visual-textual coupling. These high-connectivity tokens act as anchors that ground reasoning in the image, while the majority follow linguistic patterns. During RLVR training, credit assignment naturally concentrates on these anchors, sharpening their visual grounding over time. Building on this insight, we propose Anchor-Token Reinforcement Learning (AT-RL), a lightweight framework that selectively reinforces high-connectivity tokens via graph-based clustering of attention topology. Evaluated across the series (3B-32B), AT-RL introduces only 1.2% overhead yet enables the 32B model to surpass the 72B-Instruct baseline on MathVista (80.2), with consistent gains observed across STEM, video and general tasks. Conversely, training solely on low-connectivity tokens causes severe degradation, confirming that effective multimodal RL hinges on precise credit assignment to visual anchors. Our work reveals that reasoning quality is governed not by token quantity but by the fidelity of cross-modal anchoring.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.