R³L: 언어 기반 탐색, 핵심적인 기여도, 그리고 긍정적 증폭을 활용한 반사-재시도 강화 학습
R$^3$L: Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification
강화 학습은 최근 LLM의 추론 능력과 에이전트 기능 발전에 중요한 역할을 해왔지만, 현재의 접근 방식은 탐색과 활용 측면에서 어려움을 겪고 있습니다. 탐색은 어려운 작업에서 낮은 성공률과 반복적인 초기 실행으로 인한 높은 비용 문제를 가지고 있으며, 활용은 부정확한 기여도 할당과 학습 불안정성 문제를 야기합니다. 전체 경로에 대한 보상은 이후 오류로 인해 유효한 선행 부분을 페널티로 적용하며, 실패 위주의 데이터는 소수의 긍정적인 신호를 압도하여 최적화 방향을 제시하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 언어 기반 탐색, 핵심적인 기여도, 그리고 긍정적 증폭을 활용하는 반사-재시도 강화 학습인 R³L을 제안합니다. R³L은 고품질 경로를 생성하기 위해 확률적 샘플링 대신 반사-재시도 방식을 사용하여 언어 피드백을 통해 오류를 진단하고, 실패한 시도를 성공적인 시도로 변환하며, 식별된 실패 지점부터 재시작하여 실행 비용을 줄입니다. 오류가 진단되고 특정되면, 핵심적인 기여도 할당은 대조적인 신호가 존재하는 분기 부분에 대해서만 업데이트를 수행하여, 공유되는 선행 부분은 그래디언트 업데이트에서 제외합니다. 어려운 작업에서 실패가 빈번하게 발생하고, 반사-재시도 방식은 오프라인 데이터를 생성하여 학습 불안정성을 야기할 수 있으므로, 긍정적 증폭은 성공적인 경로에 가중치를 부여하여 긍정적인 신호가 최적화 과정을 이끌도록 합니다. 에이전트 및 추론 작업에 대한 실험 결과, R³L은 기준 모델 대비 5%에서 52%의 성능 향상을 보였으며, 학습 안정성을 유지했습니다. 저희 코드의 공개 주소는 https://github.com/shiweijiezero/R3L 입니다.
Reinforcement learning drives recent advances in LLM reasoning and agentic capabilities, yet current approaches struggle with both exploration and exploitation. Exploration suffers from low success rates on difficult tasks and high costs of repeated rollouts from scratch. Exploitation suffers from coarse credit assignment and training instability: Trajectory-level rewards penalize valid prefixes for later errors, and failure-dominated groups overwhelm the few positive signals, leaving optimization without constructive direction. To this end, we propose R$^3$L, Reflect-then-Retry Reinforcement Learning with Language-Guided Exploration, Pivotal Credit, and Positive Amplification. To synthesize high-quality trajectories, R$^3$L shifts from stochastic sampling to active synthesis via reflect-then-retry, leveraging language feedback to diagnose errors, transform failed attempts into successful ones, and reduce rollout costs by restarting from identified failure points. With errors diagnosed and localized, Pivotal Credit Assignment updates only the diverging suffix where contrastive signals exist, excluding the shared prefix from gradient update. Since failures dominate on difficult tasks and reflect-then-retry produces off-policy data, risking training instability, Positive Amplification upweights successful trajectories to ensure positive signals guide the optimization process. Experiments on agentic and reasoning tasks demonstrate 5\% to 52\% relative improvements over baselines while maintaining training stability. Our code is released at https://github.com/shiweijiezero/R3L.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.