알아야 할 것은 알아야 한다: 검증 가능한 강화 학습 추론을 위한 메타인지 엔트로피 교정
Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning
대규모 추론 모델(LRM)은 복잡한 실제 문제를 해결하는 강력한 패러다임으로 등장했습니다. 실질적으로 이러한 모델은 주로 검증 가능한 보상을 활용한 강화 학습(RLVR) 방식으로 훈련되지만, 대부분의 기존 결과-기반 RLVR 파이프라인은 이진 형태의 정확성 신호에만 의존하며 모델의 고유한 불확실성을 거의 고려하지 않습니다. 우리는 이러한 불일치를 '불확실성-보상 불일치'라고 부르며, 이는 높은 불확실성과 낮은 불확실성을 가진 해결책을 동일하게 취급하여 정책이 '알아야 할 것은 알아야 한다'는 원칙을 따르지 못하게 하고, 단순히 정답을 맞추는 것을 최적화하는 것에서 벗어나 효과적인 추론 경로를 최적화하는 것을 방해합니다. 이러한 제한은 특히 수학 및 질의 응답과 같이 모델의 내부 추론 과정의 품질이 최종 답변의 암기보다 성능에 중요한 역할을 하는 추론 중심 작업에서 특히 중요합니다. 이러한 문제를 해결하기 위해, 우리는 LRM의 성능을 향상시키기 위해 고유한 불확실성을 RLVR에 명시적으로 통합하는 메타인지 엔트로피 교정 프레임워크인 EGPO를 제안합니다. EGPO는 토큰 수준의 확률로부터 파생된 오버헤드가 없는 엔트로피 프록시를 사용하여 샘플별 불확실성을 추정하고, 비대칭적인 교정 메커니즘을 통해 정확한 추론을 유지하면서 과도하게 확신하는 실패를 선택적으로 규제하여 안정적이고 불확실성을 고려한 정책 최적화를 가능하게 합니다. 또한, EGPO는 검증기나 보상 정의를 수정하지 않고, 그렇지 않으면 퇴화되는 그룹 기반 롤아웃에서 유용한 학습 신호를 추출합니다. 여러 벤치마크에서 수행한 광범위한 실험은 제안된 EGPO가 추론 성능에서 상당하고 일관된 개선을 가져오며, 메타인지 엔트로피 교정을 통해 LRM을 발전시키는 원칙적인 방법을 제시한다는 것을 보여줍니다.
Large reasoning models (LRMs) have emerged as a powerful paradigm for solving complex real-world tasks. In practice, these models are predominantly trained via Reinforcement Learning with Verifiable Rewards (RLVR), yet most existing outcome-only RLVR pipelines rely almost exclusively on a binary correctness signal and largely ignore the model's intrinsic uncertainty. We term this discrepancy the uncertainty-reward mismatch, under which high- and low-uncertainty solutions are treated equivalently, preventing the policy from "Know What You Know" and impeding the shift from optimizing for correct answers to optimizing effective reasoning paths. This limitation is especially critical in reasoning-centric tasks such as mathematics and question answering, where performance hinges on the quality of the model's internal reasoning process rather than mere memorization of final answers. To address this, we propose EGPO, a metacognitive entropy calibration framework that explicitly integrates intrinsic uncertainty into RLVR for enhancing LRMs. EGPO estimates per-sample uncertainty using a zero-overhead entropy proxy derived from token-level likelihoods and aligns it with extrinsic correctness through an asymmetric calibration mechanism that preserves correct reasoning while selectively regulating overconfident failures, thereby enabling stable and uncertainty-aware policy optimization. Moreover, EGPO recovers informative learning signals from otherwise degenerate group-based rollouts without modifying the verifier or reward definition. Extensive experiments across multiple benchmarks demonstrate that the proposed EGPO leads to substantial and consistent improvements in reasoning performance, establishing a principled path for advancing LRMs through metacognitive entropy calibration.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.