2604.07853v1 Apr 09, 2026 cs.LG

QaRL: 롤아웃 정렬 양자화 인식 강화 학습 - 훈련-추론 불일치 하에서의 빠르고 안정적인 훈련을 위한 방법

QaRL: Rollout-Aligned Quantization-Aware RL for Fast and Stable Training under Training--Inference Mismatch

Yike Guo
Yike Guo
Citations: 329
h-index: 9
Jiacheng Liu
Jiacheng Liu
Citations: 196
h-index: 6
Hao Gu
Hao Gu
Citations: 69
h-index: 5
Lujun Li
Lujun Li
Citations: 97
h-index: 4
Qiyuan Zhu
Qiyuan Zhu
Citations: 78
h-index: 2
Beisong Liu
Beisong Liu
Citations: 3
h-index: 1
Sida Lin
Sida Lin
Citations: 7
h-index: 2
Sirui Han
Sirui Han
Citations: 78
h-index: 2
Hao Wang
Hao Wang
Citations: 15
h-index: 2
Bin Xu
Bin Xu
Citations: 19
h-index: 2
Lei Wang
Lei Wang
Citations: 211
h-index: 5
Xintong Yang
Xintong Yang
Citations: 186
h-index: 7

대규모 언어 모델(LLM) 강화 학습(RL) 파이프라인은 종종 롤아웃 생성 단계에서 병목 현상을 겪으며, 이로 인해 엔드 투 엔드 훈련 속도가 느려집니다. 최근 연구에서는 양자화를 사용하여 디코딩 속도를 높여 이러한 문제를 완화하려고 시도합니다. 디코딩은 RL 루프에서 가장 비용이 많이 드는 단계입니다. 그러나 이러한 방식은 훈련-추론 간의 격차를 증폭시켜 최적화를 불안정하게 만듭니다. 롤아웃은 낮은 정밀도로 실행되는 반면, 학습 업데이트는 전체 정밀도로 계산되기 때문입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 훈련 단계의 forward 연산을 양자화된 롤아웃과 일치시켜 불일치를 최소화하는 QaRL(Rollout Alignment Quantization-Aware RL)을 제안합니다. 또한, 양자화된 롤아웃에서 발생하는 문제점, 즉 긴 형식의 응답에서 반복적이거나 의미 없는 토큰(오류 토큰)이 생성되는 현상을 발견했습니다. 이러한 문제를 완화하기 위해, 우리는 negative 샘플에 대한 이중 클리핑을 사용하는 시퀀스 레벨의 목적 함수인 TBPO(Trust-Band Policy Optimization)를 도입하여 업데이트가 신뢰 영역 내에 있도록 합니다. 수학 문제에 대한 Qwen3-30B-A3B MoE 모델을 사용하여 실험한 결과, QaRL은 양자화된 롤아웃 훈련보다 +5.5% 더 높은 성능을 보였으며, 안정성을 개선하고 낮은 비트 처리량을 유지했습니다.

Original Abstract

Large language model (LLM) reinforcement learning (RL) pipelines are often bottlenecked by rollout generation, making end-to-end training slow. Recent work mitigates this by running rollouts with quantization to accelerate decoding, which is the most expensive stage of the RL loop. However, these setups destabilize optimization by amplifying the training-inference gap: rollouts are operated at low precision, while learning updates are computed at full precision. To address this challenge, we propose QaRL (Rollout Alignment Quantization-Aware RL), which aligns training-side forward with the quantized rollout to minimize mismatch. We further identify a failure mode in quantized rollouts: long-form responses tend to produce repetitive, garbled tokens (error tokens). To mitigate these problems, we introduce TBPO (Trust-Band Policy Optimization), a sequence-level objective with dual clipping for negative samples, aimed at keeping updates within the trust region. On Qwen3-30B-A3B MoE for math problems, QaRL outperforms quantized-rollout training by +5.5 while improving stability and preserving low-bit throughput benefits.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!