DGPO: 분포 기반 정책 최적화 - 세분화된 신용 할당을 위한 방법
DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment
강화 학습은 대규모 언어 모델이 복잡한 추론 작업을 수행하도록 하는 데 매우 중요합니다. 그러나 현재의 알고리즘, 예를 들어 Group Relative Policy Optimization은 시퀀스 수준의 거친 신용 할당 문제를 가지고 있으며, 이는 긴 Chain of Thought 생성 과정에서 핵심적인 추론 단계를 분리하는 데 심각한 어려움을 초래합니다. 또한, 표준적인 무제한 Kullback-Leibler 발산 페널티는 심각한 기울기 불안정성과 보수적인 모드 추구를 유발하여, 새로운 추론 경로를 발견하는 것을 방해합니다. 이러한 한계를 극복하기 위해, 우리는 Distribution Guided Policy Optimization(DGPO)이라는 새로운 비판 기반 강화 학습 프레임워크를 제안합니다. DGPO는 분포 편차를 엄격한 페널티가 아닌 안내 신호로 재해석합니다.
Reinforcement learning is crucial for aligning large language models to perform complex reasoning tasks. However, current algorithms such as Group Relative Policy Optimization suffer from coarse grained, sequence level credit assignment, which severely struggles to isolate pivotal reasoning steps within long Chain of Thought generations. Furthermore, the standard unbounded Kullback Leibler divergence penalty induces severe gradient instability and mode seeking conservatism, ultimately stifling the discovery of novel reasoning trajectories. To overcome these limitations, we introduce Distribution Guided Policy Optimization, a novel critic free reinforcement learning framework that reinterprets distribution deviation as a guiding signal rather than a rigid penalty.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.