2604.11056v1 Apr 13, 2026 cs.LG

RLVR에서의 토큰 레벨 보상 할당에 대한 재고: 극성-엔트로피 분석

Rethinking Token-Level Credit Assignment in RLVR: A Polarity-Entropy Analysis

Qihong Lin
Qihong Lin
Citations: 0
h-index: 0
Hao Wu
Hao Wu
Citations: 22
h-index: 3
Yuhang He
Yuhang He
Citations: 47
h-index: 4
Hong Ge
Hong Ge
Citations: 579
h-index: 8
Yongqi Zhang
Yongqi Zhang
Citations: 32
h-index: 3
Ke-Fei Wu
Ke-Fei Wu
Citations: 21
h-index: 2
Siyi Liu
Siyi Liu
Citations: 13
h-index: 2
Hang Zhou
Hang Zhou
Citations: 37
h-index: 5
Zhuoxun Zheng
Zhuoxun Zheng
Citations: 238
h-index: 10
Zixin Zhong
Zixin Zhong
Citations: 173
h-index: 8

검증 가능한 보상을 활용하는 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켰습니다. 그러나 RLVR의 희소하고 결과 기반의 보상은 근본적인 보상 할당 문제를 야기합니다. 우리는 보상 극성과 토큰 엔트로피를 결합하여 이 문제를 분석합니다. 당사의 진단 도구인 '네 가지 분면 분해(Four Quadrant Decomposition)'는 극성과 엔트로피에 따라 토큰 업데이트를 분리하며, 제어된 제거 실험 결과, 추론 성능 향상은 주로 높은 엔트로피 영역에서 나타나는 것을 확인했습니다. 이러한 관찰을 이론적으로 뒷받침하기 위해, 우리는 조건부 상호 정보(Conditional Mutual Information)를 자기 회귀 RLVR 설정에 적용하고, 토큰이 전달할 수 있는 보상은 해당 토큰의 엔트로피에 의해 상한이 제한된다는 것을 증명했습니다. 이 관점은 다음과 같은 검증 가능한 예측을 제시합니다. 즉, 추론 성능 향상은 주로 높은 엔트로피를 가진 토큰에서 비롯되며, 긍정적 및 부정적 업데이트는 고유한 역할을 수행합니다. GRPO의 기울기 분석은 또한 균일한 보상 전파가 높은 엔트로피 위치에서 신호를 희석시키고, 결정적인 토큰에 과도한 보상을 부여하는 방식을 보여줍니다. 이러한 통찰력을 바탕으로, 우리는 토큰 레벨 학습 신호를 적절하게 조절하는 '엔트로피 인식 정책 최적화(Entropy-Aware Policy Optimization, EAPO)'를 제안합니다. 광범위한 실험 결과, EAPO는 두 가지 모델 계열에서 강력한 기준 모델보다 우수한 성능을 보였습니다.

Original Abstract

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning ability of Large Language Models (LLMs). However, its sparse outcome-based rewards pose a fundamental credit assignment problem. We analyze this problem through the joint lens of reward polarity and token entropy. Our diagnostic tool, the Four Quadrant Decomposition, isolates token updates by polarity and entropy, and controlled ablations show that reasoning improvements concentrate in the high-entropy quadrants. To justify this observation theoretically, we adapt Conditional Mutual Information to the autoregressive RLVR setting and prove that the credit a token can carry is upper-bounded by its entropy. This view yields testable predictions that reasoning gains arise primarily from high-entropy tokens, with unique roles for positive and negative updates. A gradient analysis of GRPO further reveals how uniform reward broadcast dilutes signal at high-entropy positions while over-crediting deterministic tokens. Grounded in these insights, we propose Entropy-Aware Policy Optimization (EAPO) that modulates token-level learning signals accordingly. Extensive experiments demonstrate that EAPO outperforms strong baselines across two model families.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!