2602.06825v1 Feb 06, 2026 cs.LG

AEGPO: 적응형 엔트로피 기반 정책 최적화 알고리즘 - 확산 모델을 위한 방법

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Yuming Li
Yuming Li
Citations: 40
h-index: 3
Qingyu Li
Qingyu Li
Citations: 18
h-index: 3
Chengyu Bai
Chengyu Bai
Citations: 36
h-index: 3
Xiangyang Luo
Xiangyang Luo
Citations: 20
h-index: 2
Zeyue Xue
Zeyue Xue
Citations: 227
h-index: 5
Wenyu Qin
Wenyu Qin
Citations: 160
h-index: 4
Meng Wang
Meng Wang
Citations: 11
h-index: 1
Yikai Wang
Yikai Wang
Citations: 40
h-index: 2
Shanghang Zhang
Shanghang Zhang
Citations: 51
h-index: 3

인간 피드백 기반 강화 학습(RLHF)은 확산 및 흐름 모델의 정렬에 유망한 가능성을 보여주지만, GRPO와 같은 정책 최적화 방법은 비효율적이고 정적인 샘플링 전략으로 인해 어려움을 겪습니다. 이러한 방법은 모든 프롬프트와 노이즈 제거 단계를 동일하게 취급하며, 샘플 학습 가치의 상당한 변화와 중요한 탐색 순간의 동적인 특성을 무시합니다. 이러한 문제를 해결하기 위해, 우리는 GRPO 훈련 과정에서의 내부 어텐션 역학에 대한 상세한 분석을 수행하고, 중요한 통찰력을 얻었습니다. 바로 어텐션 엔트로피가 강력한 이중 신호 프록시 역할을 할 수 있다는 것입니다. 첫째, 서로 다른 샘플에 대한 어텐션 엔트로피의 상대적인 변화(ΔEntropy)는 현재 정책과 기준 정책 간의 차이를 반영하며, 샘플 학습 가치를 나타내는 강력한 지표로 작용합니다. 둘째, 노이즈 제거 과정에서 절대 어텐션 엔트로피(Entropy(t))의 최대값은 어텐션 분산을 나타내며, 고가치 탐색이 발생하는 중요한 시간 단계를 효과적으로 식별합니다. 이러한 관찰을 바탕으로, 우리는 새로운 이중 신호, 이중 수준의 적응형 최적화 전략인 Adaptive Entropy-Guided Policy Optimization (AEGPO)를 제안합니다. 전역 수준에서 AEGPO는 ΔEntropy를 사용하여 롤아웃 예산을 동적으로 할당하여, 더 높은 학습 가치를 가진 프롬프트에 우선순위를 부여합니다. 지역 수준에서 AEGPO는 Entropy(t)의 최대값을 활용하여, 모든 노이즈 제거 단계에서 균일하게 탐색하는 대신, 중요한 고분산 시간 단계에서 선택적으로 탐색을 수행합니다. AEGPO는 가장 유용한 샘플과 가장 중요한 순간에 집중함으로써, 더욱 효율적이고 효과적인 정책 최적화를 가능하게 합니다. 텍스트-이미지 생성 작업에 대한 실험 결과, AEGPO는 표준 GRPO 변형에 비해 수렴 속도를 크게 향상시키고 우수한 정렬 성능을 달성하는 것으로 나타났습니다.

Original Abstract

Reinforcement learning from human feedback (RLHF) shows promise for aligning diffusion and flow models, yet policy optimization methods such as GRPO suffer from inefficient and static sampling strategies. These methods treat all prompts and denoising steps uniformly, ignoring substantial variations in sample learning value as well as the dynamic nature of critical exploration moments. To address this issue, we conduct a detailed analysis of the internal attention dynamics during GRPO training and uncover a key insight: attention entropy can serve as a powerful dual-signal proxy. First, across different samples, the relative change in attention entropy (ΔEntropy), which reflects the divergence between the current policy and the base policy, acts as a robust indicator of sample learning value. Second, during the denoising process, the peaks of absolute attention entropy (Entropy(t)), which quantify attention dispersion, effectively identify critical timesteps where high-value exploration occurs. Building on this observation, we propose Adaptive Entropy-Guided Policy Optimization (AEGPO), a novel dual-signal, dual-level adaptive optimization strategy. At the global level, AEGPO uses ΔEntropy to dynamically allocate rollout budgets, prioritizing prompts with higher learning value. At the local level, it exploits the peaks of Entropy(t) to guide exploration selectively at critical high-dispersion timesteps rather than uniformly across all denoising steps. By focusing computation on the most informative samples and the most critical moments, AEGPO enables more efficient and effective policy optimization. Experiments on text-to-image generation tasks demonstrate that AEGPO significantly accelerates convergence and achieves superior alignment performance compared to standard GRPO variants.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!