2601.12401v1 Jan 18, 2026 cs.LG

디랙 델타를 넘어서: 다재다능한 이미지 생성을 위한 강화 학습 미세 조정 시 다양성 붕괴 완화

Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation

Jinmei Liu
Jinmei Liu
Citations: 17
h-index: 3
Haoru Li
Haoru Li
Citations: 9
h-index: 2
Zhenhong Sun
Zhenhong Sun
Citations: 37
h-index: 4
Chaofeng Chen
Chaofeng Chen
Citations: 12
h-index: 2
Yatao Bian
Yatao Bian
Citations: 4
h-index: 1
Bo Wang
Bo Wang
Citations: 80
h-index: 3
Daoyi Dong
Daoyi Dong
Citations: 15
h-index: 3
Chunlin Chen
Chunlin Chen
Citations: 65
h-index: 4
Zhi Wang
Zhi Wang
Citations: 720
h-index: 16

강화 학습(RL)은 확산 모델 및 흐름 모델과 같은 대규모 생성 모델을 미세 조정하여 복잡한 인간 선호도 및 사용자 정의 작업에 맞추는 강력한 패러다임으로 부상했습니다. 그러나 여전히 해결해야 할 근본적인 한계가 있는데, 바로 extit{다양성 붕괴의 저주}입니다. 이는 목표 함수 정의 및 최적화 과정에서 정책이 본질적으로 디랙 델타 분포로 수렴하는 현상을 의미합니다. 이러한 문제를 해결하기 위해, 우리는 extbf{DRIFT}( extbf{D}iversity- extbf{R}incentivized Reinforcement extbf{F}ine- extbf{T}uning for Versatile Image Generation)라는 혁신적인 프레임워크를 제안합니다. DRIFT는 온-라인 미세 조정 과정 전반에 걸쳐 출력 다양성을 체계적으로 장려하여, 강력한 작업 정렬성과 높은 생성 다양성을 조화시키고, 다양한 후보 생성물을 요구하는 응용 분야에서 필수적인 다재다능성을 향상시킵니다. 우리는 이 문제를 세 가지 주요 관점에서 접근합니다. 첫째, 보상에 집중된 부분 집합을 extbf{샘플링}하여 보상 이상치를 제거하고 조기 붕괴를 방지합니다. 둘째, 확률적 변형을 사용하여 조건 공간을 확장하는 extbf{프롬프팅}을 사용합니다. 셋째, 잠재 기반 보상 형상화 메커니즘을 통해 그룹 내 다양성을 extbf{최적화}합니다. 실험 결과는 DRIFT가 작업 정렬성과 생성 다양성 측면에서 우수한 패레토 우위를 달성함을 보여줍니다. DRIFT는 동일한 정렬 수준에서 다양성을 9.08% ~ 43.46% 증가시키고, 동일한 다양성 수준에서 정렬성을 59.65% ~ 65.86% 증가시킵니다.

Original Abstract

Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning large-scale generative models, such as diffusion and flow models, to align with complex human preferences and user-specified tasks. A fundamental limitation remains \textit{the curse of diversity collapse}, where the objective formulation and optimization landscape inherently collapse the policy to a Dirac delta distribution. To address this challenge, we propose \textbf{DRIFT} (\textbf{D}ive\textbf{R}sity-\textbf{I}ncentivized Reinforcement \textbf{F}ine-\textbf{T}uning for Versatile Image Generation), an innovative framework that systematically incentivizes output diversity throughout the on-policy fine-tuning process, reconciling strong task alignment with high generation diversity to enhance versatility essential for applications that demand diverse candidate generations. We approach the problem across three representative perspectives: i) \textbf{sampling} a reward-concentrated subset that filters out reward outliers to prevent premature collapse; ii) \textbf{prompting} with stochastic variations to expand the conditioning space, and iii) \textbf{optimization} of the intra-group diversity with a potential-based reward shaping mechanism. Experimental results show that DRIFT achieves superior Pareto dominance regarding task alignment and generation diversity, yielding a $ 9.08\%\!\sim\! 43.46\%$ increase in diversity at equivalent alignment levels and a $ 59.65\% \!\sim\! 65.86\%$ increase in alignment at equivalent levels of diversity.

3 Citations
0 Influential
8 Altmetric
43.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!