2603.10887v1 Mar 11, 2026 cs.LG

활성 강화 학습 기반의 대규모 추론 모델 미세 조정: 동적 예측 샘플링

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Yun Qu
Yun Qu
Tsinghua University
Citations: 212
h-index: 10
Qi Wang
Qi Wang
Citations: 16
h-index: 2
Yixiu Mao
Yixiu Mao
Citations: 161
h-index: 9
Heming Zou
Heming Zou
Citations: 37
h-index: 3
Xiangyang Ji
Xiangyang Ji
Citations: 18
h-index: 2

강화 학습(RL) 미세 조정은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 핵심 기술로 자리 잡았습니다. 하지만, 그 효과는 훈련 데이터 선택에 크게 의존합니다. 최근 연구는 온라인 프롬프트 선택 방법의 중요성을 강조하며, 이 방법들은 일반적으로 현재 정책 하에서 부분적으로 해결되거나 중간 정도의 난이도를 가진 예제에 대한 훈련을 집중하여 보다 효과적인 모델 업데이트를 제공합니다. 이러한 방법들은 훈련 단계를 크게 단축하지만, 유용한 샘플을 식별하기 위해 광범위한 후보 배치에 대한 LLM 실행이 필요하여 상당한 계산 오버헤드를 발생시키며, 이는 미세 조정 프로세스 자체보다 더 큰 비용이 될 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 동적 예측 샘플링(DPS)을 제안합니다. DPS는 비용이 많이 드는 실행 전에 각 프롬프트의 학습 동역학을 추론하여 유용한 프롬프트를 온라인으로 예측하고 선택합니다. 구체적으로, 우리는 각 프롬프트의 해결 진행 상황을 동적 시스템으로 모델링하는 새로운 관점을 제시합니다. 여기서 해결 정도는 상태로 표현되며, 전이는 은닉 마르코프 모델로 특징지어집니다. 과거 실행의 보상 신호를 사용하여 온라인 베이지안 추론을 수행하여 시간에 따라 변화하는 상태 분포를 추정하고, 이 추론 결과는 광범위한 실행 기반 필터링 없이 효율적인 프롬프트 선택을 위한 예측 사전 정보를 제공합니다. 수학, 계획, 시각 기하학 등 다양한 추론 작업에 대한 실험 결과는 DPS가 불필요한 실행을 크게 줄이고, 훈련 과정을 가속화하며, 우수한 추론 성능을 달성한다는 것을 보여줍니다.

Original Abstract

Reinforcement learning (RL) finetuning has become a key technique for enhancing the reasoning abilities of large language models (LLMs). However, its effectiveness critically depends on the selection of training data. Recent advances underscore the importance of online prompt selection methods, which typically concentrate training on partially solved or moderately challenging examples under the current policy, thereby yielding more effective model updates. While significantly accelerating RL finetuning in terms of training steps, they also incur substantial computational overhead by requiring extensive LLM rollouts over large candidate batches to identify informative samples, an expense that can outweigh the finetuning process itself. To address this challenge, this work proposes Dynamics-Predictive Sampling (DPS), which online predicts and selects informative prompts by inferring their learning dynamics prior to costly rollouts. Specifically, we introduce a new perspective by modeling each prompt's solving progress during RL finetuning as a dynamical system, where the extent of solving is represented as the state and the transition is characterized by a hidden Markov model. Using historical rollout reward signals, we perform online Bayesian inference to estimate evolving state distributions, and the inference outcome provides a predictive prior for efficient prompt selection without rollout-intensive filtering. Empirical results across diverse reasoning tasks, including mathematics, planning, and visual geometry, demonstrate that DPS substantially reduces redundant rollouts, accelerates the training process, and achieves superior reasoning performance.

1 Citations
0 Influential
5 Altmetric
26.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!