강화 학습 기반 비디오 생성에서의 다양성 인지 탐색
Manifold-Aware Exploration for Reinforcement Learning in Video Generation
FlowGRPO와 같은 비디오 생성 분야의 Group Relative Policy Optimization (GRPO) 방법은 언어 모델 및 이미지 분야의 동등한 방법들에 비해 신뢰성이 현저히 떨어집니다. 이러한 격차는 비디오 생성의 복잡한 해 공간과, 탐색에 사용되는 ODE-to-SDE 변환 과정에서 발생하는 과도한 노이즈 때문입니다. 이로 인해 롤아웃 품질이 저하되고 보상 추정의 신뢰성이 떨어져, 학습 후 정렬 과정이 불안정해집니다. 본 연구에서는 사전 학습된 모델을 유효한 비디오 데이터 매니폴드로 간주하고, 탐색을 이 매니폴드 근처로 제한하는 방식으로 문제를 정의했습니다. 이를 통해 롤아웃 품질을 유지하고 보상 추정의 신뢰성을 높이는 것을 목표로 합니다. 우리는 SAGE-GRPO (Stable Alignment via Exploration)라는 방법을 제안하며, 이는 미시적 및 거시적 수준에서 제약을 적용합니다. 미시적 수준에서는 로그 곡률 보정을 사용한 정확한 매니폴드 인지 SDE를 도출하고, 그래디언트 정규화 장치를 도입하여 시간 단계에 따른 샘플링 및 업데이트를 안정화합니다. 거시적 수준에서는 주기적인 이동 기준점과 단계적 제약을 사용하는 이중 신뢰 영역을 사용하여 신뢰 영역이 매니폴드에 더 가까운 체크포인트를 추적하고 장기적인 드리프트를 제한합니다. 우리는 HunyuanVideo1.5 데이터셋에서 원래의 VideoAlign을 보상 모델로 사용하여 SAGE-GRPO를 평가했으며, VQ, MQ, TA 및 시각적 지표 (CLIPScore, PickScore)에서 기존 방법보다 일관된 성능 향상을 확인했습니다. 이는 보상 최대화 및 전체 비디오 품질 모두에서 우수한 성능을 보여줍니다. 코드 및 시각적 결과는 다음 링크에서 확인할 수 있습니다: https://dungeonmassster.github.io/SAGE-GRPO-Page/.
Group Relative Policy Optimization (GRPO) methods for video generation like FlowGRPO remain far less reliable than their counterparts for language models and images. This gap arises because video generation has a complex solution space, and the ODE-to-SDE conversion used for exploration can inject excess noise, lowering rollout quality and making reward estimates less reliable, which destabilizes post-training alignment. To address this problem, we view the pre-trained model as defining a valid video data manifold and formulate the core problem as constraining exploration within the vicinity of this manifold, ensuring that rollout quality is preserved and reward estimates remain reliable. We propose SAGE-GRPO (Stable Alignment via Exploration), which applies constraints at both micro and macro levels. At the micro level, we derive a precise manifold-aware SDE with a logarithmic curvature correction and introduce a gradient norm equalizer to stabilize sampling and updates across timesteps. At the macro level, we use a dual trust region with a periodic moving anchor and stepwise constraints so that the trust region tracks checkpoints that are closer to the manifold and limits long-horizon drift. We evaluate SAGE-GRPO on HunyuanVideo1.5 using the original VideoAlign as the reward model and observe consistent gains over previous methods in VQ, MQ, TA, and visual metrics (CLIPScore, PickScore), demonstrating superior performance in both reward maximization and overall video quality. The code and visual gallery are available at https://dungeonmassster.github.io/SAGE-GRPO-Page/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.