Flow-OPD: 플로우 매칭 모델을 위한 온-폴리시 증류
Flow-OPD: On-Policy Distillation for Flow Matching Models
기존의 플로우 매칭(FM) 텍스트-이미지 모델은 다중 작업 정렬 과정에서 두 가지 중요한 문제점을 가지고 있습니다. 첫째, 스칼라 값으로 표현되는 보상으로 인해 발생하는 보상 희소성, 둘째, 서로 다른 목표를 동시에 최적화하면서 발생하는 경사 간섭으로 인해 경쟁적인 지표 간의 'seesaw 효과'와 보상 해킹 현상이 발생합니다. 본 논문에서는 대규모 언어 모델 커뮤니티에서 성공적인 온-폴리시 증류(OPD)에 영감을 받아, 플로우 매칭 모델에 온-폴리시 증류를 통합하는 최초의 통합 후속 훈련 프레임워크인 Flow-OPD를 제안합니다. Flow-OPD는 두 단계의 정렬 전략을 채택합니다. 먼저, 싱글-리워드 강화 학습(GRPO)을 통해 각 전문가가 독립적으로 성능 한계에 도달하도록 하는 도메인 전문화된 교사 모델을 구축합니다. 그런 다음, 플로우 기반 콜드-스타트 방식을 통해 강력한 초기 정책을 설정하고, 세 단계의 조율을 통해 온-폴리시 샘플링, 작업 라우팅 레이블링, 그리고 밀집된 경로 수준의 감독을 통해 다양한 전문성을 하나의 학생 모델로 원활하게 통합합니다. 또한, 작업에 독립적인 교사 모델을 활용하여 전체 데이터에 대한 감독을 제공하고, 생성 결과를 고품질 매니폴드에 고정하여 순수 강화 학습 기반 정렬에서 흔히 관찰되는 미적 품질 저하를 효과적으로 완화하는 매니폴드 앵커 정규화(MAR)를 도입합니다. Stable Diffusion 3.5 Medium을 기반으로 구축된 Flow-OPD는 GenEval 점수를 63에서 92로, OCR 정확도를 59에서 94로 향상시켜, 전체적으로 기존 GRPO 방식보다 약 10점 정도의 성능 향상을 보이며, 이미지 충실도와 인간 선호도 정렬을 유지하고, '교사 능가' 효과를 나타냅니다. 이러한 결과는 Flow-OPD를 일반적인 텍스트-이미지 모델을 구축하기 위한 확장 가능한 정렬 패러다임으로 확립합니다.
Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.