2604.19485v1 Apr 21, 2026 cs.LG

EVPO: 설명된 분산 정책 최적화 - LLM 사후 훈련에서의 적응형 비평기 활용

EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training

Xuanjing Huang
Xuanjing Huang
Citations: 3,341
h-index: 30
Shihan Dou
Shihan Dou
Citations: 4,276
h-index: 26
Tao Gui
Tao Gui
Citations: 353
h-index: 5
Shichun Liu
Shichun Liu
Citations: 821
h-index: 9
Jiahang Lin
Jiahang Lin
Citations: 122
h-index: 2
Dingwei Zhu
Dingwei Zhu
Citations: 8
h-index: 1
Jiazheng Zhang
Jiazheng Zhang
Citations: 90
h-index: 5
Songyang Gao
Songyang Gao
Citations: 1,284
h-index: 15
Zhenhua Han
Zhenhua Han
Citations: 17
h-index: 1
Bing Wang
Bing Wang
Citations: 547
h-index: 6
Rui Zheng
Rui Zheng
Citations: 109
h-index: 4
Yansong Feng
Yansong Feng
Citations: 8
h-index: 2
Cheng Pan
Cheng Pan
Citations: 18
h-index: 2

LLM 사후 훈련을 위한 강화 학습(RL)은 근본적인 설계 선택에 직면합니다. 바로 정책 최적화를 위한 기준선으로 학습된 비평기를 사용할 것인지 여부입니다. 전통적인 이론은 PPO와 같은 비평기 기반 방법이 분산 감소에 유리하다고 주장하지만, GRPO와 같은 비평기 없는 대안은 단순성과 경쟁력 있는 성능으로 인해 널리 채택되었습니다. 우리는 희소 보상 환경에서 학습된 비평기가 캡처하는 상태 신호를 초과하는 추정 노이즈를 주입하여, 오히려 이점이 분산을 증가시킬 수 있음을 보여줍니다. 우리는 기준선 선택을 칼만 필터링 문제로 간주하여 PPO와 GRPO를 칼만 이득의 두 극단으로 통합하고, 단일 훈련 배치에서 계산 가능한 설명된 분산(EV)이 정확한 경계를 나타냄을 증명합니다. 양수가 EV는 비평기가 분산을 감소시킨다는 것을 나타내고, 0 또는 음수 EV는 비평기가 분산을 증가시킨다는 것을 나타냅니다. 이러한 통찰력을 바탕으로, 우리는 각 훈련 단계에서 배치 수준의 EV를 모니터링하고 비평기 기반 방법과 배치 평균 이점 추정 사이를 적응적으로 전환하는 Explained Variance Policy Optimization (EVPO)을 제안합니다. EVPO는 이론적으로 증명된 바와 같이, 모든 단계에서 두 방법 중 더 나은 방법과 동일하거나 그 이상의 분산을 갖지 않습니다. 고전 제어, 에이전트 상호 작용, 수학적 추론을 포괄하는 네 가지 작업에서, EVPO는 주어진 작업에서 더 강력한 고정 기준선을 사용하는 PPO 또는 GRPO보다 일관되게 우수한 성능을 보입니다. 추가 분석 결과, 적응형 게이팅은 훈련 과정에서 비평기의 발달을 추적하며, 이론적으로 도출된 0의 임계값이 경험적으로 최적임을 확인합니다.

Original Abstract

Reinforcement learning (RL) for LLM post-training faces a fundamental design choice: whether to use a learned critic as a baseline for policy optimization. Classical theory favors critic-based methods such as PPO for variance reduction, yet critic-free alternatives like GRPO have gained widespread adoption due to their simplicity and competitive performance. We show that in sparse-reward settings, a learned critic can inject estimation noise that exceeds the state signal it captures, increasing rather than reducing advantage variance. By casting baseline selection as a Kalman filtering problem, we unify PPO and GRPO as two extremes of the Kalman gain and prove that explained variance (EV), computable from a single training batch, identifies the exact boundary: positive EV indicates the critic reduces variance, while zero or negative EV signals that it inflates variance. Building on this insight, we propose Explained Variance Policy Optimization (EVPO), which monitors batch-level EV at each training step and adaptively switches between critic-based and batch-mean advantage estimation, provably achieving no greater variance than the better of the two at every step. Across four tasks spanning classical control, agentic interaction, and mathematical reasoning, EVPO consistently outperforms both PPO and GRPO regardless of which fixed baseline is stronger on a given task. Further analysis confirms that the adaptive gating tracks critic maturation over training and that the theoretically derived zero threshold is empirically optimal.

0 Citations
0 Influential
15 Altmetric
75.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!