VESPO: 안정적인 오프라인 LLM 학습을 위한 변분 시퀀스 레벨 소프트 정책 최적화
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
대규모 언어 모델(LLM)을 위한 강화 학습(RL)에서 학습 안정성은 여전히 중요한 과제입니다. 정책의 устаревшие(오래된) 정도, 비동기 학습, 그리고 학습 엔진과 추론 엔진 간의 불일치 등은 행동 정책이 현재 정책과 달라지게 만들고, 이는 학습 실패의 위험을 초래합니다. 중요 샘플링은 이러한 분포 변화에 대한 체계적인 수정 방법을 제공하지만, 높은 분산을 겪습니다. 토큰 레벨 클리핑 및 시퀀스 레벨 정규화와 같은 기존의 해결 방법들은 통합적인 이론적 기반이 부족합니다. 본 논문에서는 변분 시퀀스 레벨 소프트 정책 최적화(VESPO)를 제안합니다. VESPO는 제안 분포에 대한 변분 프레임워크에 분산 감소를 통합하여, 길이 정규화 없이 시퀀스 레벨 중요 가중치에 직접 작용하는 닫힌 형태의 재구성 커널을 유도합니다. 수학적 추론 벤치마크에 대한 실험 결과, VESPO는 최대 64배의 정책 устаревшие(오래된) 정도와 완전히 비동기적인 실행 환경에서도 안정적인 학습을 유지하며, 밀집 모델과 Mixture-of-Experts 모델 모두에서 일관된 성능 향상을 제공합니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/FloyedShen/VESPO
Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.