UCPO: 불확실성 인식 정책 최적화
UCPO: Uncertainty-Aware Policy Optimization
신뢰할 수 있는 거대 언어 모델(LLM)을 구축하는 핵심은 고위험 응용 분야에서의 활용을 제한하는 환각 현상을 완화하기 위해 모델에 내재적 불확실성 표현 능력을 부여하는 데 있다. 그러나 GRPO와 같은 기존 강화학습 패러다임은 이진 결정 공간과 정적 불확실성 보상으로 인해 어드밴티지 편향(Advantage Bias)을 겪는 경우가 많으며, 이는 과도한 보수성이나 과신을 유발한다. 이러한 문제를 해결하기 위해, 본 논문은 불확실성 기반 보상을 통합한 현재의 강화학습 패러다임에서 발생하는 보상 해킹과 과신의 근본 원인을 밝히고, 이를 바탕으로 불확실성 인식 정책 최적화(UCPO) 프레임워크를 제안한다. UCPO는 삼항 어드밴티지 분리(Ternary Advantage Decoupling)를 사용하여 확정적 롤아웃과 불확실한 롤아웃을 분리하고 독립적으로 정규화함으로써 어드밴티지 편향을 제거한다. 또한, 모델의 학습 진행 상황과 인스턴스 난이도에 따라 실시간으로 불확실성 가중치를 보정하는 동적 불확실성 보상 조정 메커니즘을 도입한다. 수학적 추론 및 일반 작업에 대한 실험 결과, UCPO는 보상 불균형을 효과적으로 해결하여 지식 경계를 넘어선 모델의 신뢰성과 캘리브레이션 성능을 크게 향상시키는 것으로 나타났다.
The key to building trustworthy Large Language Models (LLMs) lies in endowing them with inherent uncertainty expression capabilities to mitigate the hallucinations that restrict their high-stakes applications. However, existing RL paradigms such as GRPO often suffer from Advantage Bias due to binary decision spaces and static uncertainty rewards, inducing either excessive conservatism or overconfidence. To tackle this challenge, this paper unveils the root causes of reward hacking and overconfidence in current RL paradigms incorporating uncertainty-based rewards, based on which we propose the UnCertainty-Aware Policy Optimization (UCPO) framework. UCPO employs Ternary Advantage Decoupling to separate and independently normalize deterministic and uncertain rollouts, thereby eliminating advantage bias. Furthermore, a Dynamic Uncertainty Reward Adjustment mechanism is introduced to calibrate uncertainty weights in real-time according to model evolution and instance difficulty. Experimental results in mathematical reasoning and general tasks demonstrate that UCPO effectively resolves the reward imbalance, significantly improving the reliability and calibration of the model beyond their knowledge boundaries.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.