2605.03327v1 May 05, 2026 cs.LG

DGPO: 분포 기반 정책 최적화 - 세분화된 신용 할당을 위한 방법

DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

Hongbo Jin
Hongbo Jin
Citations: 36
h-index: 4
Xunyi Jiang
Xunyi Jiang
Citations: 10
h-index: 2
Rongpeng Zhu
Rongpeng Zhu
Citations: 11
h-index: 2
Zhongjing Du
Zhongjing Du
Citations: 21
h-index: 3
Qiao Zhang
Qiao Zhang
Citations: 12
h-index: 3
Jingqi Tian
Jingqi Tian
Citations: 35
h-index: 3
Jiayu Ding
Jiayu Ding
Citations: 45
h-index: 4

강화 학습은 대규모 언어 모델이 복잡한 추론 작업을 수행하도록 하는 데 매우 중요합니다. 그러나 현재의 알고리즘, 예를 들어 Group Relative Policy Optimization은 시퀀스 수준의 거친 신용 할당 문제를 가지고 있으며, 이는 긴 Chain of Thought 생성 과정에서 핵심적인 추론 단계를 분리하는 데 심각한 어려움을 초래합니다. 또한, 표준적인 무제한 Kullback-Leibler 발산 페널티는 심각한 기울기 불안정성과 보수적인 모드 추구를 유발하여, 새로운 추론 경로를 발견하는 것을 방해합니다. 이러한 한계를 극복하기 위해, 우리는 Distribution Guided Policy Optimization(DGPO)이라는 새로운 비판 기반 강화 학습 프레임워크를 제안합니다. DGPO는 분포 편차를 엄격한 페널티가 아닌 안내 신호로 재해석합니다.

Original Abstract

Reinforcement learning is crucial for aligning large language models to perform complex reasoning tasks. However, current algorithms such as Group Relative Policy Optimization suffer from coarse grained, sequence level credit assignment, which severely struggles to isolate pivotal reasoning steps within long Chain of Thought generations. Furthermore, the standard unbounded Kullback Leibler divergence penalty induces severe gradient instability and mode seeking conservatism, ultimately stifling the discovery of novel reasoning trajectories. To overcome these limitations, we introduce Distribution Guided Policy Optimization, a novel critic free reinforcement learning framework that reinterprets distribution deviation as a guiding signal rather than a rigid penalty.

6 Citations
1 Influential
2 Altmetric
18.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!