MulFeRL: 다중 턴 루프 내 언어적 피드백을 활용한 강화 학습 성능 향상
MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop
검증 가능한 보상을 활용한 강화 학습(RLVR)은 여러 도메인에서 추론 능력을 향상시키기 위해 널리 사용되지만, 결과 기반의 스칼라 보상은 희소하고 정보가 부족하다는 한계가 있다. 특히 실패한 샘플의 경우, 단순히 실패 여부만 알려줄 뿐 추론 실패의 원인에 대한 통찰은 제공하지 못한다. 본 논문에서는 실패한 샘플에 대한 RLVR 훈련을 돕기 위해 보다 풍부한 언어적 피드백을 활용하는 방법과, 이를 학습 가능한 신호로 변환하는 방법을 탐구한다. 구체적으로, 우리는 다중 턴 피드백 유도 강화 학습 프레임워크를 제안한다. 이 프레임워크는 (1) 실패한 샘플에서만 작동하는 피드백 기반 동적 다중 턴 재생성, (2) 턴 내부 및 턴 간 최적화를 위한 두 가지 상호 보완적 학습 신호, (3) 모델의 추론 과정에 대한 구조화된 피드백 주입이라는 세 가지 메커니즘을 기반으로 한다. 샘플링된 OpenR1-Math로 훈련된 이 접근 방식은 도메인 내부에서 지도 미세 조정 및 기존 RLVR 베이스라인보다 뛰어난 성능을 보였으며, 도메인 외부에서도 우수한 일반화 성능을 입증했다.
Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning in multiple domains, yet outcome-only scalar rewards are often sparse and uninformative, especially on failed samples, where they merely indicate failure and provide no insight into why the reasoning fails. In this paper, we investigate how to leverage richer verbal feedback to guide RLVR training on failed samples, and how to convert such feedback into a trainable learning signal. Specifically, we propose a multi-turn feedback-guided reinforcement learning framework. It builds on three mechanisms: (1) dynamic multi-turn regeneration guided by feedback, triggered only on failed samples, (2) two complementary learning signals for within-turn and cross-turn optimization, and (3) structured feedback injection into the model's reasoning process. Trained on sampled OpenR1-Math, the approach outperforms supervised fine-tuning and RLVR baselines in-domain and generalizes well out-of-domain.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.