LLM 강화 학습에서의 훈련-추론 불일치 진단
Diagnosing Training Inference Mismatch in LLM Reinforcement Learning
현대 LLM 강화 학습 시스템은 샘플 생성(rollout generation)과 정책 최적화 단계를 분리합니다. 이 두 단계는 동일한 모델 가중치 하에서 동일한 시퀀스에 대해 정확히 일치하는 토큰 확률을 생성해야 하지만, 구현상의 차이로 인해 동일한 시퀀스에 서로 다른 값을 할당하여 훈련-추론 불일치(Training-Inference Mismatch, TIM)를 야기할 수 있습니다. TIM은 오프라인 데이터 편향(off-policy drift) 및 일반적인 안정화 메커니즘과 얽혀 있어 분석하기 어렵습니다. 본 연구에서는 제로-불일치 진단 환경(VeXact)을 통해 TIM을 분리하고, 작은 토큰 수준의 수치적 불일치가 독립적으로 훈련 실패를 유발할 수 있음을 보여줍니다. 또한, TIM이 효과적인 최적화 문제를 변화시키며, TIM을 완화할 수 있는 여러 가지 해결책을 제시합니다. 우리의 결과는 TIM이 단순한 수치적 노이즈가 아니라 LLM 강화 학습의 안정성을 분석할 때 중요한 시스템 수준의 교란 요인임을 시사합니다.
Modern LLM RL systems separate rollout generation from policy optimization. These two stages are expected to produce token probabilities that match exactly. However, implementation differences can make them assign different values to the same sequence under the same model weights, inducing Training-Inference Mismatch (TIM). TIM is difficult to inspect because it is entangled with off-policy drift and common stabilization mechanisms. In this work, we isolate TIM in a zero-mismatch diagnostic setting (VeXact), and show that small token-level numerical disagreements can independently cause training collapse. We further show that TIM changes the effective optimization problem, and identify a set of remedies that could mitigate TIM. Our results suggest that TIM is not benign numerical noise, but a systems-level perturbation that should be treated as a first-order factor in analyzing LLM RL stability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.