LFPO: 마스크 디퓨전 모델을 위한 likelihood-free 정책 최적화
LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models
검증 가능한 보상을 활용한 강화 학습(RLVR)은 특히 수학적 추론 및 코드 생성과 같이 정확성이 요구되는 분야에서 autoregressive 모델을 개선하는 데 상당한 성공을 거두었습니다. 그러나 이러한 패러다임을 Diffusion Large Language Models (dLLMs)에 직접 적용하는 것은 정확한 likelihood 계산의 어려움으로 인해 근본적인 제약을 받으며, 기존 방법은 높은 분산을 갖는 근사치를 사용해야 합니다. 이러한 격차를 해소하기 위해, 우리는 벡터장 흐름 매칭의 개념을 이산적인 토큰 공간에 적용하는 native 프레임워크인 Likelihood-Free Policy Optimization (LFPO)를 제안합니다. 구체적으로, LFPO는 정렬을 기하학적 속도 보정으로 정의하며, 이를 통해 contrastive 업데이트를 통해 denoising logits를 직접 최적화합니다. 이러한 설계는 likelihood 근사에 내재된 오류를 효과적으로 회피하여 정확한 gradient 추정을 가능하게 합니다. 또한, LFPO는 중간 단계에서 최종 솔루션을 예측하여 일관성을 강화함으로써 확률 흐름을 정렬하고, 결과적으로 더 적은 반복 횟수로 고품질 생성을 가능하게 합니다. 광범위한 실험 결과, LFPO는 코드 및 추론 벤치마크에서 최첨단 baseline 모델보다 뛰어난 성능을 보일 뿐만 아니라, diffusion 단계를 줄여 약 20%의 추론 속도 향상을 달성했습니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.