2602.13055v1 Feb 13, 2026 cs.CV

커리큘럼-DPO++: 데이터 및 모델 커리큘럼을 활용한 텍스트-이미지 생성의 직접 선호도 최적화

Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation

N. Sebe
N. Sebe
Citations: 4,374
h-index: 35
Florinel-Alin Croitoru
Florinel-Alin Croitoru
Citations: 2,408
h-index: 8
Vlad Hondru
Vlad Hondru
Citations: 2,292
h-index: 7
R. Ionescu
R. Ionescu
Citations: 289
h-index: 11
M. Shah
M. Shah
Citations: 65
h-index: 6

직접 선호도 최적화(DPO)는 인간 피드백 기반 강화 학습(RLHF)의 효과적이고 효율적인 대안으로 제안되었습니다. 그러나 RLHF와 DPO 모두 학습해야 할 선호도 중 일부가 다른 선호도보다 더 어렵다는 점을 고려하지 않기 때문에 최적화 프로세스가 비효율적입니다. 이러한 문제점을 해결하기 위해, 텍스트-이미지 생성 분야에서 이미지 쌍의 난이도를 기준으로 정렬하는 방법인 커리큘럼-DPO를 최근에 제안했습니다. 본 논문에서는 원래의 데이터 레벨 커리큘럼에 새로운 모델 레벨 커리큘럼을 결합한 향상된 방법인 커리큘럼-DPO++를 소개합니다. 구체적으로, 학습이 진행됨에 따라 디노이징 네트워크의 학습 능력을 동적으로 증가시키는 것을 제안합니다. 이러한 능력 증가는 두 가지 메커니즘을 통해 구현됩니다. 첫째, 모델을 원래 커리큘럼-DPO에서 사용된 학습 가능한 레이어의 일부로 초기화합니다. 학습이 진행됨에 따라 순차적으로 레이어를 언프리즈하여 최종적으로는 전체 기준 아키텍처와 일치하도록 합니다. 둘째, 미세 조정이 로우-랭크 적응(LoRA)을 기반으로 하기 때문에, 로우-랭크 행렬의 차원에 대한 점진적인 일정을 구현합니다. 고정된 용량을 유지하는 대신, 로우-랭크 행렬을 기준 아키텍처보다 훨씬 작은 차원으로 초기화합니다. 학습이 진행됨에 따라 점진적으로 랭크를 증가시켜 용량을 성장시키고, 최종적으로는 커리큘럼-DPO와 동일한 랭크 값에 수렴하도록 합니다. 또한, 커리큘럼-DPO에서 사용된 것과 다른 대체 순위 전략을 제안합니다. 마지막으로, 커리큘럼-DPO++를 커리큘럼-DPO 및 기타 최첨단 선호도 최적화 방법과 비교하여 텍스트 정렬, 심미성 및 인간 선호도 측면에서 경쟁 방법보다 우수한 성능을 보임을 입증합니다. 저희 코드는 https://github.com/CroitoruAlin/Curriculum-DPO 에서 확인할 수 있습니다.

Original Abstract

Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). However, neither RLHF nor DPO take into account the fact that learning certain preferences is more difficult than learning other preferences, rendering the optimization process suboptimal. To address this gap in text-to-image generation, we recently proposed Curriculum-DPO, a method that organizes image pairs by difficulty. In this paper, we introduce Curriculum-DPO++, an enhanced method that combines the original data-level curriculum with a novel model-level curriculum. More precisely, we propose to dynamically increase the learning capacity of the denoising network as training advances. We implement this capacity increase via two mechanisms. First, we initialize the model with only a subset of the trainable layers used in the original Curriculum-DPO. As training progresses, we sequentially unfreeze layers until the configuration matches the full baseline architecture. Second, as the fine-tuning is based on Low-Rank Adaptation (LoRA), we implement a progressive schedule for the dimension of the low-rank matrices. Instead of maintaining a fixed capacity, we initialize the low-rank matrices with a dimension significantly smaller than that of the baseline. As training proceeds, we incrementally increase their rank, allowing the capacity to grow until it converges to the same rank value as in Curriculum-DPO. Furthermore, we propose an alternative ranking strategy to the one employed by Curriculum-DPO. Finally, we compare Curriculum-DPO++ against Curriculum-DPO and other state-of-the-art preference optimization approaches on nine benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://github.com/CroitoruAlin/Curriculum-DPO.

0 Citations
0 Influential
47.897207708399 Altmetric
239.5 Score
Original PDF
7

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!