2604.17912v1 Apr 20, 2026 cs.LG

수정 학습: 다중 시도 체인-오브-소트 (Chain-of-Thought)를 위한 교정된 강화 학습

Learning to Correct: Calibrated Reinforcement Learning for Multi-Attempt Chain-of-Thought

M. E. Ildiz
M. E. Ildiz
Citations: 683
h-index: 12
Halil Alperen Gozeten
Halil Alperen Gozeten
Citations: 42
h-index: 3
Ege Onur Taga
Ege Onur Taga
Citations: 87
h-index: 4
Samet Oymak
Samet Oymak
Citations: 5,632
h-index: 40

최첨단 추론 모델은 점점 더 복잡한 문제를 해결하기 위해 더 많은 연산 자원을 사용하는 긴 체인-오브-소트(CoT)를 활용합니다. 본 연구에서는 모델이 최대 K번의 시도를 통해 문제를 해결하는 긴 CoT 환경을 탐구합니다. 각 시도는 모델이 엄격한 검증(verifier) 피드백을 받은 후 이전 시도의 결과를 바탕으로 구축될 수 있습니다. 이는 각 시도에 대한 보상을 활용하여 시도 횟수에 따라 적절하게 가중치를 부여하는 강화 학습 방법을 필요로 합니다. 우리는 Verification@K 보상(모델이 K번째 시도에서 성공하는 경우)을 최적화하는 방법을 연구하고, 각 시도를 단순히 성공/실패 결과에 따라 가중치를 부여하면 편향된 기울기가 발생한다는 것을 보여줍니다. 우리는 Calibrated Attempt-Level (CAL) GRPO라는 방법을 제안하며, 이는 편향되지 않은 기울기를 얻으면서도 작은 분산을 유지하기 위한 가중치 전략을 사용합니다. 우리의 이론적 분석은 각 시도에 대한 보상이 학습 과정과 최종 Verification@K 성능에 미치는 영향을 설명합니다. 합성 데이터 및 실제 데이터에 대한 실험, 기준 모델 비교, 그리고 추가 실험을 통해 우리의 이론과 CAL-GRPO가 일반적인 GRPO 및 단순 가중치 방식보다 우수하다는 것을 입증했습니다.

Original Abstract

State-of-the-art reasoning models utilize long chain-of-thought (CoT) to solve increasingly complex problems using more test-time computation. In this work, we explore a long CoT setting where the model makes up to K successive attempts at solving a problem, in which each attempt is allowed to build on earlier ones after the model receives a hard verifier feedback. This motivates RL methods that can harness per-attempt rewards by carefully weighting individual attempts. We study optimizing the Verification@K reward (the model succeeds by the K-th attempt) and show that naively weighing the attempts by their pass/fail results in biased gradients. We introduce Calibrated Attempt-Level (CAL) GRPO by devising a weighing strategy to obtain unbiased gradients while maintaining small variance. Our theory reveals how incorporating per-attempt rewards influence the training and the eventual Verification@K performance. Experiments, baselines, and ablations on synthetic and real data corroborate our theory and the benefits of CAL-GRPO over vanilla GRPO as well as naive weighting.

0 Citations
0 Influential
20 Altmetric
100.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!