중심화된 보상 증류를 통한 확산 강화 학습
Diffusion Reinforcement Learning via Centered Reward Distillation
확산 및 흐름 모델은 최첨단(SOTA) 수준의 생성 성능을 달성하지만, 미세한 프롬프트 충실도, 합성 정확성 및 텍스트 렌더링과 같은 많은 중요한 행동들은 스코어 또는 흐름 매칭 사전 학습 목표에 의해 제대로 정의되지 않습니다. 외부, 블랙박스 보상을 사용하는 강화 학습(RL) 미세 조정은 자연스러운 해결책이지만, 확산 RL은 종종 불안정합니다. 경로 기반 방법은 높은 메모리 비용과 높은 분산 기울기 추정치를 발생시키고, 순방향 프로세스 기반 방법은 더 빠르게 수렴하지만 분포 편향으로 인해 보상 해킹 문제가 발생할 수 있습니다. 본 연구에서는 KL 정규화된 보상 극대화를 기반으로 순방향 프로세스 기반 미세 조정을 통해 파생된 확산 RL 프레임워크인 **중심화된 보상 증류(CRD)**를 제시합니다. 핵심적인 아이디어는 풀기 어려운 정규화 상수가 *프롬프트 내 중심화*를 통해 상쇄되어, 잘 정의된 보상 매칭 목표를 얻는 것입니다. 안정적인 텍스트-이미지 미세 조정을 가능하게 하기 위해, 우리는 분포 편향을 명시적으로 제어하는 기술을 도입합니다: (i) 비율 신호 붕괴를 방지하기 위해 샘플러를 움직이는 참조점과 분리하고, (ii) 장기적인 편향을 제어하고 사전 학습 모델의 추론 시 의미와 일치시키기 위해 CFG(Classifier-Free Guidance) 기반 사전 학습 모델에 KL 앵커링을 사용하고, (iii) 초기 학습을 가속화하고 대규모 KL 정규화 하에서의 후기 단계 보상 모델의 취약점 악용을 줄이기 위해 보상에 적응적인 KL 강도를 사용합니다. GenEval 및 OCR 보상을 사용한 텍스트-이미지 후처리 실험 결과, CRD는 빠른 수렴과 감소된 보상 해킹으로 경쟁력 있는 SOTA 수준의 보상 최적화 결과를 달성하며, 이는 새로운 선호도 지표를 통해 검증되었습니다.
Diffusion and flow models achieve State-Of-The-Art (SOTA) generative performance, yet many practically important behaviors such as fine-grained prompt fidelity, compositional correctness, and text rendering are weakly specified by score or flow matching pretraining objectives. Reinforcement Learning (RL) fine-tuning with external, black-box rewards is a natural remedy, but diffusion RL is often brittle. Trajectory-based methods incur high memory cost and high-variance gradient estimates; forward-process approaches converge faster but can suffer from distribution drift, and hence reward hacking. In this work, we present \textbf{Centered Reward Distillation (CRD)}, a diffusion RL framework derived from KL-regularized reward maximization built on forward-process-based fine-tuning. The key insight is that the intractable normalizing constant cancels under \emph{within-prompt centering}, yielding a well-posed reward-matching objective. To enable reliable text-to-image fine-tuning, we introduce techniques that explicitly control distribution drift: (\textit{i}) decoupling the sampler from the moving reference to prevent ratio-signal collapse, (\textit{ii}) KL anchoring to a CFG-guided pretrained model to control long-run drift and align with the inference-time semantics of the pre-trained model, and (\textit{iii}) reward-adaptive KL strength to accelerate early learning under large KL regularization while reducing late-stage exploitation of reward-model loopholes. Experiments on text-to-image post-training with \texttt{GenEval} and \texttt{OCR} rewards show that CRD achieves competitive SOTA reward optimization results with fast convergence and reduced reward hacking, as validated on unseen preference metrics.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.