2602.04380v1 Feb 04, 2026 cs.LG

KL 발산의 한계를 넘어: LLM 추론을 위한 유연한 브레그만 발산을 활용한 정책 최적화

Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

Rui Yuan

Citations: 231

h-index: 6

Vinay Kumar Sankarapu

Citations: 59

h-index: 5

M. Khandoga

Citations: 2,950

h-index: 28

그룹 상대 정책 최적화(GRPO)와 그 변형과 같은 정책 최적화 방법은 수학적 추론 및 코드 생성 작업에서 뛰어난 성능을 보여왔습니다. 보상 처리 전략 및 학습 동역학에 대한 광범위한 연구에도 불구하고, 기존의 모든 그룹 기반 방법은 정책 정규화를 위해 KL 발산을 독점적으로 사용하며, 발산 함수의 선택은 고려되지 않았습니다. 본 연구에서는 그룹 기반 정책 최적화를 유연한 브레그만 발산으로 확장하는 프레임워크인 그룹 기반 미러 정책 최적화(GBMPO)를 소개합니다. 여기에는 수동으로 설계된 대안(확률 공간에서의 L2 발산)과 학습된 신경 미러 맵이 포함됩니다. GSM8K 수학적 추론 데이터셋에서, 수동으로 설계된 ProbL2-GRPO는 86.7%의 정확도를 달성하여, Dr. GRPO 기준 모델보다 +5.5% 향상된 성능을 보였습니다. MBPP 코드 생성 데이터셋에서, 신경 미러 맵은 60.1-60.8%의 pass@1 정확도를 달성했으며, 무작위 초기화만으로도 대부분의 성능 향상을 얻을 수 있었습니다. 진화 전략 메타 학습은 미미한 정확도 향상을 제공하지만, 주요 가치는 분산 감소(±0.2 vs. ±0.6) 및 효율성 향상(MBPP에서 응답 시간 15% 단축)에 있습니다. 이는 신경 미러 맵의 무작위 초기화만으로도 대부분의 실제 응용 분야에서 충분한 성능을 얻을 수 있음을 시사합니다. 이러한 결과는 LLM 추론을 위한 그룹 기반 정책 최적화에서 발산 함수 선택이 중요한 설계 요소이며, 이전에 탐구되지 않았음을 보여줍니다.

Original Abstract

Policy optimization methods like Group Relative Policy Optimization (GRPO) and its variants have achieved strong results on mathematical reasoning and code generation tasks. Despite extensive exploration of reward processing strategies and training dynamics, all existing group-based methods exclusively use KL divergence for policy regularization, leaving the choice of divergence function unexplored. We introduce Group-Based Mirror Policy Optimization (GBMPO), a framework that extends group-based policy optimization to flexible Bregman divergences, including hand-designed alternatives (L2 in probability space) and learned neural mirror maps. On GSM8K mathematical reasoning, hand-designed ProbL2-GRPO achieves 86.7% accuracy, improving +5.5 points over the Dr. GRPO baseline. On MBPP code generation, neural mirror maps reach 60.1-60.8% pass@1, with random initialization already capturing most of the benefit. While evolutionary strategies meta-learning provides marginal accuracy improvements, its primary value lies in variance reduction ($\pm$0.2 versus $\pm$0.6) and efficiency gains (15% shorter responses on MBPP), suggesting that random initialization of neural mirror maps is sufficient for most practical applications. These results establish divergence choice as a critical, previously unexplored design dimension in group-based policy optimization for LLM reasoning.

1 Citations

0 Influential

14 Altmetric

71.0 Score

Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!