ADORA: 강화 학습에서 동적 이점 추정을 활용한 추론 모델 학습
ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning
강화 학습은 복잡한 작업에서 추론 모델을 개발하는 핵심 기술로 자리 잡았습니다. 이러한 모델의 최적화는 일반적으로 정책 그래디언트 방법을 사용하며, 이 방법의 효과는 이점 함수의 정확한 추정에 달려 있습니다. 그러나 기존 방법은 일반적으로 정적인 이점 추정을 사용하는데, 이는 시간이 지남에 따라 학습 샘플의 동적인 유용성을 무시하여 비효율적인 보상 할당을 초래합니다. 이러한 제한 사항은 최적의 정책 업데이트를 방해하며, 이는 모델이 변화하는 샘플 유용성에 효과적으로 적응하지 못하여 수렴 속도가 느려지고 학습 안정성이 떨어지는 현상으로 나타납니다. 이러한 문제를 해결하기 위해, 우리는 정책 최적화를 위한 새로운 프레임워크인 **ADORA** (**A**dvantage **D**ynamics via **O**nline **R**ollout **A**daptation)를 제안합니다. ADORA는 온라인 모델 롤아웃 과정에서 학습 데이터를 일시적으로 유리하거나 불리한 샘플로 적응적으로 분류하여 이점 함수의 가중치를 동적으로 조정합니다. 이러한 맞춤형 데이터 분리 전략은 ADORA가 기존의 정책 최적화 알고리즘에 상당한 아키텍처 수정 없이 원활하게 통합될 수 있도록 하며, 이를 통해 모델은 더 유용한 경험으로부터 학습하는 것을 우선시하여 보다 효율적인 정책 업데이트를 달성할 수 있습니다. 다양한 모델 유형과 데이터 규모에 대한 광범위한 평가 결과, ADORA는 견고하고 효율적인 프레임워크임을 입증했습니다. ADORA는 기하학적 및 수학적 작업 모두에서 장기적인 추론 능력을 크게 향상시키며, 민감한 하이퍼파라미터 튜닝 없이도 꾸준히 주목할 만한 성능 향상을 달성합니다.
Reinforcement learning has become a cornerstone technique for developing reasoning models in complex tasks, ranging from mathematical problem-solving to imaginary reasoning. The optimization of these models typically relies on policy gradient methods, whose efficacy hinges on the accurate estimation of an advantage function. However, prevailing methods typically employ static advantage estimation, a practice that leads to inefficient credit assignment by neglecting the dynamic utility of training samples over time. This limitation results in suboptimal policy updates, which in turn manifest as slower convergence rates and increased learning instability, as models fail to adapt to evolving sample utilities effectively. To address this problem, we introduce \textbf{ADORA} (\textbf{A}dvantage \textbf{D}ynamics via \textbf{O}nline \textbf{R}ollout \textbf{A}daptation), a novel framework for policy optimization. ADORA dynamically adjusts the advantage function's weighting by adaptively categorizing training data into temporarily advantageous and disadvantageous samples, based on their evolving utility during online model rollouts. This tailored data differentiation strategy allows ADORA to be seamlessly integrated into existing policy optimization algorithms without significant architectural modifications, enabling the policy to prioritize learning from more informative experiences and thereby achieve more efficient policy updates. Extensive evaluations across diverse model families and varying data scales demonstrate that ADORA is a robust and efficient framework. It significantly enhances long reasoning in both geometric and mathematical tasks, consistently achieving notable performance gains without requiring sensitive hyperparameter tuning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.