2604.12632v1 Apr 14, 2026 cs.LG

추론 LLM을 위한 교정(Calibration) 인지 정책 최적화

Calibration-Aware Policy Optimization for Reasoning LLMs

Ziqing Wang
Ziqing Wang
Citations: 35
h-index: 4
Xingzhou Lou
Xingzhou Lou
Citations: 206
h-index: 7
Junge Zhang
Junge Zhang
Citations: 61
h-index: 2
Meiqi Wu
Meiqi Wu
Citations: 237
h-index: 9
Zhengqi Wen
Zhengqi Wen
Citations: 2,521
h-index: 27

그룹 상대 정책 최적화(GRPO)는 LLM의 추론 능력을 향상시키지만, 종종 과신(overconfidence)을 유발하여, Area Under the Curve (AUC)로 설명되는 상대적인 교정 성능을 저하시킨다. 기존의 방법들은 교정 성능 향상에 제한적인 효과를 보이거나, 추론 정확도 측면에서 손실을 초래한다. 본 연구에서는 GRPO 스타일 알고리즘의 성능 저하가 불확실성을 고려하지 않은 장점 추정(advantage estimation)에서 비롯된다는 것을 증명한다. 이는 최적화 기울기가 교정과 일치하지 않게 만들어, 정확도 향상과 함께 교정 성능 저하를 야기한다. 이에 본 연구는 교정(Calibration)을 고려한 정책 최적화(CAPO) 기법을 제안한다. CAPO는 이론적으로 일관성을 가지며 후회 경계(regret bound)를 갖는 로지스틱 AUC 대체 손실 함수를 사용하여, 불확실성을 고려한 장점 추정을 가능하게 한다. 또한, 노이즈 마스킹(noise masking) 메커니즘을 추가하여, CAPO는 교정과 정확도를 동시에 최적화하는 안정적인 학습 동역학을 달성한다. 다양한 수학적 추론 벤치마크 실험 결과, CAPO-1.5B는 GRPO와 비교하여 최대 15%까지 교정 성능을 향상시키고, 정확도 또한 동등하거나 더 우수한 성능을 보인다. 또한, 낮은 신뢰도 상황에서 답변을 거부할 수 있도록 함으로써, CAPO는 파레토 최적(Pareto-optimal)의 정밀도-범위(precision-coverage) 균형을 제공하며, 환각(hallucination) 완화에 실질적인 가치를 지닌다.

Original Abstract

Group Relative Policy Optimization (GRPO) enhances LLM reasoning but often induces overconfidence, where incorrect responses yield lower perplexity than correct ones, degrading relative calibration as described by the Area Under the Curve (AUC). Existing approaches either yield limited improvements in calibration or sacrifice gains in reasoning accuracy. We first prove that this degradation in GRPO-style algorithms stems from their uncertainty-agnostic advantage estimation, which inevitably misaligns optimization gradients with calibration. This leads to improved accuracy at the expense of degraded calibration. We then propose Calibration-Aware Policy Optimization (CAPO). It adopts a logistic AUC surrogate loss that is theoretically consistent and admits regret bound, enabling uncertainty-aware advantage estimation. By further incorporating a noise masking mechanism, CAPO achieves stable learning dynamics that jointly optimize calibration and accuracy. Experiments on multiple mathematical reasoning benchmarks show that CAPO-1.5B significantly improves calibration by up to 15% while achieving accuracy comparable to or better than GRPO, and further boosts accuracy on downstream inference-time scaling tasks by up to 5%. Moreover, when allowed to abstain under low-confidence conditions, CAPO achieves a Pareto-optimal precision-coverage trade-off, highlighting its practical value for hallucination mitigation.

1 Citations
0 Influential
13.5 Altmetric
68.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!