디랙 델타를 넘어서: 다재다능한 이미지 생성을 위한 강화 학습 미세 조정 시 다양성 붕괴 완화
Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation
강화 학습(RL)은 확산 모델 및 흐름 모델과 같은 대규모 생성 모델을 미세 조정하여 복잡한 인간 선호도 및 사용자 정의 작업에 맞추는 강력한 패러다임으로 부상했습니다. 그러나 여전히 해결해야 할 근본적인 한계가 있는데, 바로 extit{다양성 붕괴의 저주}입니다. 이는 목표 함수 정의 및 최적화 과정에서 정책이 본질적으로 디랙 델타 분포로 수렴하는 현상을 의미합니다. 이러한 문제를 해결하기 위해, 우리는 extbf{DRIFT}( extbf{D}iversity- extbf{R}incentivized Reinforcement extbf{F}ine- extbf{T}uning for Versatile Image Generation)라는 혁신적인 프레임워크를 제안합니다. DRIFT는 온-라인 미세 조정 과정 전반에 걸쳐 출력 다양성을 체계적으로 장려하여, 강력한 작업 정렬성과 높은 생성 다양성을 조화시키고, 다양한 후보 생성물을 요구하는 응용 분야에서 필수적인 다재다능성을 향상시킵니다. 우리는 이 문제를 세 가지 주요 관점에서 접근합니다. 첫째, 보상에 집중된 부분 집합을 extbf{샘플링}하여 보상 이상치를 제거하고 조기 붕괴를 방지합니다. 둘째, 확률적 변형을 사용하여 조건 공간을 확장하는 extbf{프롬프팅}을 사용합니다. 셋째, 잠재 기반 보상 형상화 메커니즘을 통해 그룹 내 다양성을 extbf{최적화}합니다. 실험 결과는 DRIFT가 작업 정렬성과 생성 다양성 측면에서 우수한 패레토 우위를 달성함을 보여줍니다. DRIFT는 동일한 정렬 수준에서 다양성을 9.08% ~ 43.46% 증가시키고, 동일한 다양성 수준에서 정렬성을 59.65% ~ 65.86% 증가시킵니다.
Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning large-scale generative models, such as diffusion and flow models, to align with complex human preferences and user-specified tasks. A fundamental limitation remains \textit{the curse of diversity collapse}, where the objective formulation and optimization landscape inherently collapse the policy to a Dirac delta distribution. To address this challenge, we propose \textbf{DRIFT} (\textbf{D}ive\textbf{R}sity-\textbf{I}ncentivized Reinforcement \textbf{F}ine-\textbf{T}uning for Versatile Image Generation), an innovative framework that systematically incentivizes output diversity throughout the on-policy fine-tuning process, reconciling strong task alignment with high generation diversity to enhance versatility essential for applications that demand diverse candidate generations. We approach the problem across three representative perspectives: i) \textbf{sampling} a reward-concentrated subset that filters out reward outliers to prevent premature collapse; ii) \textbf{prompting} with stochastic variations to expand the conditioning space, and iii) \textbf{optimization} of the intra-group diversity with a potential-based reward shaping mechanism. Experimental results show that DRIFT achieves superior Pareto dominance regarding task alignment and generation diversity, yielding a $ 9.08\%\!\sim\! 43.46\%$ increase in diversity at equivalent alignment levels and a $ 59.65\% \!\sim\! 65.86\%$ increase in alignment at equivalent levels of diversity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.