2601.22900v1 Jan 30, 2026 cs.AI

MulFeRL: 다중 턴 루프 내 언어적 피드백을 활용한 강화 학습 성능 향상

MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop

Xuancheng Li
Xuancheng Li
Citations: 34
h-index: 2
Haitao Li
Haitao Li
Citations: 1,053
h-index: 16
Yujia Zhou
Yujia Zhou
Citations: 583
h-index: 7
Yiqun Liu
Yiqun Liu
Citations: 1,280
h-index: 19
Qingyao Ai
Qingyao Ai
Citations: 1,310
h-index: 19

검증 가능한 보상을 활용한 강화 학습(RLVR)은 여러 도메인에서 추론 능력을 향상시키기 위해 널리 사용되지만, 결과 기반의 스칼라 보상은 희소하고 정보가 부족하다는 한계가 있다. 특히 실패한 샘플의 경우, 단순히 실패 여부만 알려줄 뿐 추론 실패의 원인에 대한 통찰은 제공하지 못한다. 본 논문에서는 실패한 샘플에 대한 RLVR 훈련을 돕기 위해 보다 풍부한 언어적 피드백을 활용하는 방법과, 이를 학습 가능한 신호로 변환하는 방법을 탐구한다. 구체적으로, 우리는 다중 턴 피드백 유도 강화 학습 프레임워크를 제안한다. 이 프레임워크는 (1) 실패한 샘플에서만 작동하는 피드백 기반 동적 다중 턴 재생성, (2) 턴 내부 및 턴 간 최적화를 위한 두 가지 상호 보완적 학습 신호, (3) 모델의 추론 과정에 대한 구조화된 피드백 주입이라는 세 가지 메커니즘을 기반으로 한다. 샘플링된 OpenR1-Math로 훈련된 이 접근 방식은 도메인 내부에서 지도 미세 조정 및 기존 RLVR 베이스라인보다 뛰어난 성능을 보였으며, 도메인 외부에서도 우수한 일반화 성능을 입증했다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning in multiple domains, yet outcome-only scalar rewards are often sparse and uninformative, especially on failed samples, where they merely indicate failure and provide no insight into why the reasoning fails. In this paper, we investigate how to leverage richer verbal feedback to guide RLVR training on failed samples, and how to convert such feedback into a trainable learning signal. Specifically, we propose a multi-turn feedback-guided reinforcement learning framework. It builds on three mechanisms: (1) dynamic multi-turn regeneration guided by feedback, triggered only on failed samples, (2) two complementary learning signals for within-turn and cross-turn optimization, and (3) structured feedback injection into the model's reasoning process. Trained on sampled OpenR1-Math, the approach outperforms supervised fine-tuning and RLVR baselines in-domain and generalizes well out-of-domain.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!