2604.08539v1 Apr 09, 2026 cs.CV

OpenVLThinkerV2: 다양한 시각적 작업에 적용 가능한 범용 다중 모드 추론 모델

OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

Nanyun Peng
Nanyun Peng
Citations: 1,614
h-index: 20
Xin Chen
Xin Chen
Citations: 4
h-index: 1
Kai-Wei Chang
Kai-Wei Chang
Citations: 1,636
h-index: 19
Gao-Tian Yan
Gao-Tian Yan
Citations: 0
h-index: 0
Yihe Deng
Yihe Deng
Citations: 352
h-index: 7
Wenbo Hu
Wenbo Hu
Citations: 20
h-index: 1

그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 최근 다중 모드 대규모 언어 모델 분야의 발전을 이끌어낸 사실상 표준 강화 학습(Reinforcement Learning, RL) 목표 함수로 자리 잡았습니다. 그러나 이러한 성공을 오픈 소스 다중 모드 범용 모델로 확장하는 것은 여전히 두 가지 주요 과제로 인해 크게 제약됩니다. 첫째, 다양한 시각적 작업에 걸쳐 보상 구조의 극심한 차이이며, 둘째, 세밀한 인지 능력과 다단계 추론 능력을 균형 있게 조절하는 데 있어 내재적인 어려움입니다. 이러한 문제점을 해결하기 위해, 우리는 표준 선형 스케일링을 비선형 분포 매칭으로 대체하는 새로운 RL 훈련 목표 함수인 Gaussian GRPO (G$^2$RPO)를 제안합니다. G$^2$RPO는 수학적으로 주어진 작업의 장점 분포를 표준 정규 분포, $\mathcal{N}(0,1)$로 엄격하게 수렴하도록 강제함으로써, 이론적으로 작업 간 기울기 균형을 보장하고, 이상치에 대한 취약성을 완화하며, 양수 및 음수 보상에 대한 대칭적인 업데이트를 제공합니다. G$^2$RPO가 제공하는 향상된 훈련 안정성을 활용하여, 우리는 인지 능력과 추론 능력을 원활하게 균형을 맞추는 두 가지 작업 수준의 형태 부여 메커니즘을 소개합니다. 첫째, 응답 길이 형태 부여는 복잡한 쿼리에 대해 확장된 추론 체인을 동적으로 유도하는 동시에 시각적 연결을 강화하기 위해 직접적인 출력을 적용합니다. 둘째, 엔트로피 형태 부여는 모델의 탐색 공간을 엄격하게 제한하여 엔트로피 붕괴와 엔트로피 폭발을 효과적으로 방지합니다. 이러한 방법론을 통합하여, 우리는 높은 안정성과 범용성을 갖춘 다중 모드 모델인 OpenVLThinkerV2를 제시합니다. 18개의 다양한 벤치마크에서 수행한 광범위한 평가 결과는 OpenVLThinkerV2가 강력한 오픈 소스 모델과 선도적인 독점 모델보다 우수한 성능을 보임을 입증합니다.

Original Abstract

Group Relative Policy Optimization (GRPO) has emerged as the de facto Reinforcement Learning (RL) objective driving recent advancements in Multimodal Large Language Models. However, extending this success to open-source multimodal generalist models remains heavily constrained by two primary challenges: the extreme variance in reward topologies across diverse visual tasks, and the inherent difficulty of balancing fine-grained perception with multi-step reasoning capabilities. To address these issues, we introduce Gaussian GRPO (G$^2$RPO), a novel RL training objective that replaces standard linear scaling with non-linear distributional matching. By mathematically forcing the advantage distribution of any given task to strictly converge to a standard normal distribution, $\mathcal{N}(0,1)$, G$^2$RPO theoretically ensures inter-task gradient equity, mitigates vulnerabilities to heavy-tail outliers, and offers symmetric update for positive and negative rewards. Leveraging the enhanced training stability provided by G$^2$RPO, we introduce two task-level shaping mechanisms to seamlessly balance perception and reasoning. First, response length shaping dynamically elicits extended reasoning chains for complex queries while enforce direct outputs to bolster visual grounding. Second, entropy shaping tightly bounds the model's exploration zone, effectively preventing both entropy collapse and entropy explosion. Integrating these methodologies, we present OpenVLThinkerV2, a highly robust, general-purpose multimodal model. Extensive evaluations across 18 diverse benchmarks demonstrate its superior performance over strong open-source and leading proprietary frontier models.

0 Citations
0 Influential
10 Altmetric
50.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!