수정 학습: 다중 시도 체인-오브-소트 (Chain-of-Thought)를 위한 교정된 강화 학습
Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought
최첨단 추론 모델은 점점 더 복잡한 문제를 해결하기 위해 더 많은 연산 자원을 사용하는 긴 체인-오브-소트(CoT)를 활용합니다. 본 연구에서는 모델이 최대 K번의 시도를 통해 문제를 해결하는 긴 CoT 환경을 탐구합니다. 각 시도는 모델이 엄격한 검증(verifier) 피드백을 받은 후 이전 시도의 결과를 바탕으로 구축될 수 있습니다. 이는 각 시도에 대한 보상을 활용하여 시도 횟수에 따라 적절하게 가중치를 부여하는 강화 학습 방법을 필요로 합니다. 우리는 Verification@K 보상(모델이 K번째 시도에서 성공하는 경우)을 최적화하는 방법을 연구하고, 각 시도를 단순히 성공/실패 결과에 따라 가중치를 부여하면 편향된 기울기가 발생한다는 것을 보여줍니다. 우리는 Calibrated Attempt-Level (CAL) GRPO라는 방법을 제안하며, 이는 편향되지 않은 기울기를 얻으면서도 작은 분산을 유지하기 위한 가중치 전략을 사용합니다. 우리의 이론적 분석은 각 시도에 대한 보상이 학습 과정과 최종 Verification@K 성능에 미치는 영향을 설명합니다. 합성 데이터 및 실제 데이터에 대한 실험, 기준 모델 비교, 그리고 추가 실험을 통해 우리의 이론과 CAL-GRPO가 일반적인 GRPO 및 단순 가중치 방식보다 우수하다는 것을 입증했습니다.
State-of-the-art reasoning models utilize long chain-of-thought (CoT) to solve increasingly complex problems using more test-time computation. In this work, we explore a long CoT setting where the model makes up to K successive attempts at solving a problem, in which each attempt is allowed to build on earlier ones after the model receives a hard verifier feedback. This motivates RL methods that can harness per-attempt rewards by carefully weighting individual attempts. We study optimizing the Verification@K reward (the model succeeds by the K-th attempt) and show that naively weighing the attempts by their pass/fail results in biased gradients. We introduce Calibrated Attempt-Level (CAL) GRPO by devising a weighing strategy to obtain unbiased gradients while maintaining small variance. Our theory reveals how incorporating per-attempt rewards influence the training and the eventual Verification@K performance. Experiments, baselines, and ablations on synthetic and real data corroborate our theory and the benefits of CAL-GRPO over vanilla GRPO as well as naive weighting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.