2603.01563v1 Mar 02, 2026 cs.LG

LFPO: 마스크 디퓨전 모델을 위한 likelihood-free 정책 최적화

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Jianqing Zhang
Jianqing Zhang
Citations: 1
h-index: 1
Chenxing Wei
Chenxing Wei
Citations: 34
h-index: 4
Ningyuan Sun
Ningyuan Sun
Citations: 5
h-index: 1
Ying He
Ying He
Citations: 0
h-index: 0
F. Yu
F. Yu
Citations: 13
h-index: 2
Yao Shu
Yao Shu
Citations: 19
h-index: 3
Bo Jiang
Bo Jiang
Citations: 7
h-index: 1
Jiazheng Kang
Jiazheng Kang
Citations: 42
h-index: 3
Haozhe Jiang
Haozhe Jiang
Citations: 4
h-index: 1
Xiaolong Xu
Xiaolong Xu
Citations: 136
h-index: 6
Hong Wang
Hong Wang
Citations: 20
h-index: 1

검증 가능한 보상을 활용한 강화 학습(RLVR)은 특히 수학적 추론 및 코드 생성과 같이 정확성이 요구되는 분야에서 autoregressive 모델을 개선하는 데 상당한 성공을 거두었습니다. 그러나 이러한 패러다임을 Diffusion Large Language Models (dLLMs)에 직접 적용하는 것은 정확한 likelihood 계산의 어려움으로 인해 근본적인 제약을 받으며, 기존 방법은 높은 분산을 갖는 근사치를 사용해야 합니다. 이러한 격차를 해소하기 위해, 우리는 벡터장 흐름 매칭의 개념을 이산적인 토큰 공간에 적용하는 native 프레임워크인 Likelihood-Free Policy Optimization (LFPO)를 제안합니다. 구체적으로, LFPO는 정렬을 기하학적 속도 보정으로 정의하며, 이를 통해 contrastive 업데이트를 통해 denoising logits를 직접 최적화합니다. 이러한 설계는 likelihood 근사에 내재된 오류를 효과적으로 회피하여 정확한 gradient 추정을 가능하게 합니다. 또한, LFPO는 중간 단계에서 최종 솔루션을 예측하여 일관성을 강화함으로써 확률 흐름을 정렬하고, 결과적으로 더 적은 반복 횟수로 고품질 생성을 가능하게 합니다. 광범위한 실험 결과, LFPO는 코드 및 추론 벤치마크에서 최첨단 baseline 모델보다 뛰어난 성능을 보일 뿐만 아니라, diffusion 단계를 줄여 약 20%의 추론 속도 향상을 달성했습니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!