모든 토큰이 동일하게 중요하지 않다: 대규모 시각-언어 모델을 위한 지각 기반 정책 최적화
Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대규모 시각-언어 모델(LVLM)의 추론 능력을 향상시켰지만, 기존 프레임워크는 근본적인 방법론적 결함을 가지고 있습니다. 이러한 방법들은 생성된 모든 토큰에 동일한 이점을 부여함으로써, 다중 모드 추론의 핵심적인, 시각적으로 기반된 단계들을 최적화하는 데 필수적인 학습 신호를 본질적으로 희석시킵니다. 이러한 격차를 해소하기 위해, 우리는 '토큰 시각 의존성(Token Visual Dependency)'을 정의합니다. 이는 시각 입력이 제공하는 인과적 정보 획득량을 쿨백-라이블러(KL) 발산으로 측정하며, 시각 조건부 예측 분포와 텍스트만 사용한 예측 분포 간의 차이를 분석합니다. 이 분석 결과, 이러한 의존성은 매우 희소하고 의미적으로 중요한 것으로 나타났습니다. 이에 우리는 '지각 기반 정책 최적화(PGPO)'라는 새로운 세분화된 신용 할당 프레임워크를 제안합니다. PGPO는 임계값 기반의, 질량 보존 메커니즘을 통해 시각적으로 의존적인 토큰에 대한 학습 신호를 능동적으로 증폭시키고, 언어적 사전 지식에서 발생하는 기울기 노이즈를 억제합니다. Qwen2.5-VL 시리즈를 기반으로 7개의 어려운 다중 모드 추론 벤치마크에서 수행한 광범위한 실험 결과, PGPO는 모델 성능을 평균 18.7% 향상시켰습니다. 이론적 및 실증적 분석 결과, PGPO는 기울기 변동을 효과적으로 줄이고, 학습 실패를 방지하며, 견고한 지각 기반 다중 모드 추론을 위한 강력한 정규화 역할을 수행함을 확인했습니다. 코드: https://github.com/Yzk1114/PGPO
While Reinforcement Learning from Verifiable Rewards (RLVR) has advanced reasoning in Large Vision-Language Models (LVLMs), prevailing frameworks suffer from a foundational methodological flaw: by distributing identical advantages across all generated tokens, these methods inherently dilute the learning signals essential for optimizing the critical, visually-grounded steps of multimodal reasoning. To bridge this gap, we formulate \textit{Token Visual Dependency}, quantifying the causal information gain of visual inputs via the Kullback-Leibler (KL) divergence between visual-conditioned and text-only predictive distributions. Revealing that this dependency is highly sparse and semantically pivotal, we introduce Perception-Grounded Policy Optimization (PGPO), which is a novel fine-grained credit assignment framework that dynamically reshapes advantages at the token level. Through a threshold-gated, mass-conserving mechanism, PGPO actively amplifies learning signals for visually-dependent tokens while suppressing gradient noise from linguistic priors. Extensive experiments based on the Qwen2.5-VL series across seven challenging multimodal reasoning benchmarks demonstrate that PGPO boosts models by 18.7% on average. Both theoretical and empirical analyses confirm that PGPO effectively reduces gradient variance, prevents training collapse, and acts as a potent regularizer for robust, perception-grounded multimodal reasoning. Code will be published on https://github.com/Yzk1114/PGPO.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.