RLVR에서의 탐색 방식 재고찰: 엔트로피 정규화에서 양방향 엔트로피 조절을 통한 개선까지
Rethinking Exploration in RLVR: From Entropy Regularization to Refinement via Bidirectional Entropy Modulation
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 크게 향상시켰습니다. 그러나 RLVR은 정책이 빠르게 특정 해결책 집합으로 수렴하는 '제한된 탐색'이라는 근본적인 한계를 가지고 있습니다. 엔트로피 정규화는 탐색을 유지하는 데 널리 사용되는 방법이지만, LLM의 경우 종종 신뢰성이 떨어지며, 과도한 하이퍼파라미터 민감성과 미미한 성능 향상만 가져오는 경우가 많습니다. 이러한 비효율성에 착안하여, 본 연구에서는 정책 엔트로피와 탐색 간의 관계를 재고찰합니다. 그룹 상대적 이점 추정의 파라메트릭 공식을 도출하고 엔트로피 동역학을 분석하여, 정책 엔트로피를 다양한 해결 경로를 보존하는 '정보 엔트로피'와 추론 패턴을 약화시키는 '허위 엔트로피'로 개념적으로 분해합니다. 분석 결과, 무조건적인 엔트로피 최대화와 달리, 효과적인 탐색은 '엔트로피 정제'라는 메커니즘을 필요로 합니다. 이 메커니즘은 그룹 상대적 이점 추정에 내재되어 있으며, 긍정적인 시퀀스에서 정보 엔트로피를 유지하고 부정적인 시퀀스에서 허위 엔트로피를 억제합니다. 이러한 통찰력을 바탕으로, 긍정 및 부정 시퀀스의 조절을 명시적으로 분리하는 탐색 프레임워크인 **AsymGRPO**를 제안합니다. 이를 통해 정보 엔트로피의 보존과 허위 노이즈의 억제를 독립적으로 제어할 수 있습니다. 광범위한 실험 결과, AsymGRPO는 강력한 기준 모델보다 우수한 성능을 달성했으며, 기존의 엔트로피 정규화 방법과 시너지 효과를 낼 수 있는 잠재력을 보여주었습니다.
Reinforcement learning with verifiable rewards (RLVR) has significantly advanced the reasoning capabilities of large language models (LLMs). However, it faces a fundamental limitation termed \textit{restricted exploration}, where the policy rapidly converges to a narrow set of solutions. While entropy regularization is a popular approach used to sustain exploration, it often proves unreliable for LLMs, suffering from high hyperparameter sensitivity and yielding only marginal performance gains. Motivated by these inefficiencies, we propose to rethink the relationship between policy entropy and exploration. By deriving a parametric formulation of group-relative advantage estimation and analyzing entropy dynamics, we conceptually decompose policy entropy into \textit{informative entropy}, which preserves diverse solution paths, and \textit{spurious entropy}, which erodes reasoning patterns. Our analysis reveals that, in contrast to blind maximization, effective exploration requires \textit{entropy refinement}-a mechanism implicitly embedded in group-relative advantage estimation that sustains informative entropy on positive rollouts while suppressing spurious entropy on negative ones. Guided by this insight, we propose \textbf{AsymGRPO}, an exploratory framework that explicitly decouples the modulation of positive and negative rollouts. This allows for independent control over the preservation of informative entropy and the suppression of spurious noise. Extensive experiments demonstrate that AsymGRPO achieves superior performance compared to strong baselines and exhibits the potential to synergize with existing entropy regularization methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.