다중 모달 추론을 위한 하이브리드 정책 RLVR의 제어 가능한 탐색
Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning
검증 가능한 보상을 수반하는 강화학습(RLVR)은 다중 모달 대형 언어 모델(MLLM)의 추론 능력을 향상시키기 위한 주요 학습 패러다임으로 부상했다. 그러나 강화학습(RL) 훈련 과정에서 MLLM의 방대한 상태 공간과 희소한 보상은 종종 엔트로피 붕괴, 정책 저하, 또는 차선책 행동의 과도한 활용을 초래한다. 이는 비효율적인 탐색을 야기하는 통제되지 않은 무작위 샘플링의 단점을 피하면서도 생산적인 확률성을 유지하는 탐색 전략을 필요로 한다. 본 논문에서 우리는 두 가지 핵심 메커니즘을 통해 전문가 지도 기반의 제어 가능한 탐색을 지원하는 하이브리드 정책 RLVR 프레임워크인 CalibRL을 제안한다. 첫째, 분포 인지 어드밴티지 가중치 부여 기법은 그룹의 희소성에 따라 업데이트 크기를 조정하여 분포를 보정하고, 결과적으로 탐색을 보존한다. 둘째, 비대칭 활성화 함수(LeakyReLU)는 전문가 지식을 보정 기준선으로 활용하여 올바른 교정 방향은 유지한 채 과도하게 확신하는 업데이트를 완화한다. CalibRL은 유도된 방식으로 정책 엔트로피를 증가시키며, 온라인 샘플링을 통해 온폴리시(on-policy) 분포를 추정하여 목표 분포를 명확히 한다. 업데이트는 이러한 유익한 행동들에 의해 주도되며 잘못된 패턴으로 수렴하는 것을 방지한다. 중요한 점은, 이러한 설계가 모델의 정책과 전문가 궤적 간의 분포 불일치를 완화하여 탐색(exploration)과 활용(exploitation) 사이의 보다 안정적인 균형을 달성하도록 돕는다는 것이다. 인도메인 및 아웃오브도메인 설정을 모두 포함하는 8개의 벤치마크에 대한 광범위한 실험을 통해 일관된 개선을 확인하였으며, 제어 가능한 하이브리드 정책 RLVR 훈련의 효과를 입증하였다. 코드는 https://github.com/zhh6425/CalibRL 에서 확인할 수 있다.
Reinforcement Learning with verifiable rewards (RLVR) has emerged as a primary learning paradigm for enhancing the reasoning capabilities of multi-modal large language models (MLLMs). However, during RL training, the enormous state space of MLLM and sparse rewards often leads to entropy collapse, policy degradation, or over-exploitation of suboptimal behaviors. This necessitates an exploration strategy that maintains productive stochasticity while avoiding the drawbacks of uncontrolled random sampling, yielding inefficient exploration. In this paper, we propose CalibRL, a hybrid-policy RLVR framework that supports controllable exploration with expert guidance, enabled by two key mechanisms. First, a distribution-aware advantage weighting scales updates by group rareness to calibrate the distribution, therefore preserving exploration. Meanwhile, the asymmetric activation function (LeakyReLU) leverages the expert knowledge as a calibration baseline to moderate overconfident updates while preserving their corrective direction. CalibRL increases policy entropy in a guided manner and clarifies the target distribution by estimating the on-policy distribution through online sampling. Updates are driven by these informative behaviors, avoiding convergence to erroneous patterns. Importantly, these designs help alleviate the distributional mismatch between the model's policy and expert trajectories, thereby achieving a more stable balance between exploration and exploitation. Extensive experiments across eight benchmarks, including both in-domain and out-of-domain settings, demonstrate consistent improvements, validating the effectiveness of our controllable hybrid-policy RLVR training. Code is available at https://github.com/zhh6425/CalibRL.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.