2602.22623v1 Feb 26, 2026 cs.LG

ContextRL: 컨텍스트 증강 강화 학습을 활용한 MLLM의 지식 발견 효율성 향상

ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL

Tianke Zhang
Tianke Zhang
Citations: 211
h-index: 8
Kaiyu Jiang
Kaiyu Jiang
Citations: 160
h-index: 5
Haonan Fan
Haonan Fan
Citations: 81
h-index: 2
Changyi Liu
Changyi Liu
Citations: 194
h-index: 7
Kaiyu Tang
Kaiyu Tang
Citations: 138
h-index: 4
Bin Wen
Bin Wen
Citations: 311
h-index: 9
Tingting Gao
Tingting Gao
Citations: 307
h-index: 9
Shijie Ma
Shijie Ma
Citations: 166
h-index: 7
Jinpeng Wang
Jinpeng Wang
Citations: 12
h-index: 1
Yifan Zhang
Yifan Zhang
Citations: 21
h-index: 2
Xiao Hu
Xiao Hu
Citations: 167
h-index: 6
Fan Yang
Fan Yang
Citations: 3
h-index: 1
Chun Yuan
Chun Yuan
Citations: 21
h-index: 3
Xingyu Lu
Xingyu Lu
Citations: 74
h-index: 3
Hang Li
Hang Li
Citations: 31
h-index: 2

본 논문에서는 ContextRL이라는 새로운 프레임워크를 제안하며, 이는 컨텍스트 증강을 활용하여 기존의 문제점을 극복합니다. 특히, 식별 가능성을 향상시키기 위해, 보상 모델에 완전한 참조 솔루션을 컨텍스트로 제공하여, 미세한 과정 검증을 통해 오탐(정답은 맞지만 품질이 낮은 추론 과정을 가진 샘플)을 제거합니다. 또한, 도달 가능성을 개선하기 위해, 다단계 샘플링 전략을 도입하여, 보상 모델이 실패 시 보고서를 생성하고, 이를 통해 정책이 이전에 모두 부정적인 그룹에서 올바른 답변을 "복구"하도록 안내합니다. 11개의 인지 및 추론 벤치마크에 대한 실험 결과, ContextRL은 지식 발견 효율성을 크게 향상시키는 것으로 나타났습니다. 주목할 만한 점은 ContextRL이 Qwen3-VL-8B 모델이 32B 모델과 비교 가능한 성능을 달성하도록 한다는 것입니다. 또한, ContextRL은 표준 RLVR 기준보다 훨씬 우수한 성능을 보이면서, 효과적으로 보상 해킹을 완화합니다. 심층적인 분석을 통해, 컨텍스트 정보가 보상 모델의 정확성을 향상시키는 데 상당한 잠재력을 가지고 있으며, 보상 해킹의 광범위한 발생 현상을 보여줍니다. 이는 향후 RLVR 연구에 귀중한 통찰력을 제공합니다.

Original Abstract

We propose ContextRL, a novel framework that leverages context augmentation to overcome these bottlenecks. Specifically, to enhance Identifiability, we provide the reward model with full reference solutions as context, enabling fine-grained process verification to filter out false positives (samples with the right answer but low-quality reasoning process). To improve Reachability, we introduce a multi-turn sampling strategy where the reward model generates mistake reports for failed attempts, guiding the policy to "recover" correct responses from previously all-negative groups. Experimental results on 11 perception and reasoning benchmarks show that ContextRL significantly improves knowledge discovery efficiency. Notably, ContextRL enables the Qwen3-VL-8B model to achieve performance comparable to the 32B model, outperforming standard RLVR baselines by a large margin while effectively mitigating reward hacking. Our in-depth analysis reveals the significant potential of contextual information for improving reward model accuracy and document the widespread occurrence of reward hacking, offering valuable insights for future RLVR research.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!