불확실성 최소화를 통한 추론 단계에서의 성능 향상
Improving reasoning at inference time via uncertainty minimisation
최근의 대규모 언어 모델(LLM)은 강력한 다단계 추론 능력을 보여주지만, 기존의 추론 시간 성능 향상 방법은 계산 비용이 많이 들고, 종종 광범위한 샘플링이나 외부 평가자를 필요로 합니다. 본 연구에서는 추론을 불확실성 최소화 문제로 정의하고, 토큰 수준이 아닌 개별적인 사고 수준에서 작동하는 체계적인 전략을 제안합니다. 제안하는 방법은 각 추론 단계에서 모델의 자체적인 확신도를 최대화하는 이어지는 내용을 선택합니다. 이때 자체적인 확신도는 모델의 내부 예측 분포에서 계산되는 지표입니다. 이 방법은 적은 수의 샘플로 상당한 성능 향상을 달성하며, 모델 내부 신호에만 의존하고, 다수결 투표와 같은 방법과 달리 개방형 질문에도 적용될 수 있습니다. MATH500 및 GSM8K 데이터셋에서 다양한 모델 크기로 실험한 결과, 사고 수준에서의 자체적인 확신도 최대화가 탐욕적 디코딩보다 일관되게 우수한 성능을 보이며, 비교 가능한 토큰 예산 하에서 자기 일관성 수준과 동등하거나 그 이상의 성능을 보였습니다. 또한, 교차 언어 평가를 통해 제안하는 방법이 고자원 언어 이외의 언어에서도 안정적으로 적용될 수 있음을 확인했습니다. 더 나아가, 자체적인 확신도 변화 분석 결과, 올바른 추론 경로는 초기에 안정적인 경로로 수렴하며, 이는 추론 과정 계획과 관련된 초기 결정이 최종 정확도를 예측한다는 것을 시사합니다. 이러한 결과를 바탕으로, 초기 단계에 자체적인 확신도 최대화 방법을 적용하면 대부분의 성능 향상을 설명할 수 있으며, 간단하면서도 효율적인 추론 시간 성능 향상 방법임을 보여줍니다.
Large language models (LLMs) now exhibit strong multi-step reasoning abilities, but existing inference-time scaling methods remain computationally expensive, often relying on extensive sampling or external evaluators. We propose a principled strategy that frames reasoning as uncertainty minimisation and operates at the level of individual thoughts rather than tokens. Our method selects, at each reasoning step, the continuation that maximizes the model's self-certainty, a metric computed from its internal predictive distribution. This approach achieves significant improvement with a small number of samples, relies exclusively on model-internal signals, and applies to open-ended questions as opposed to methods like majority voting. Experiments on MATH500 and GSM8K across multiple model sizes demonstrate that thought-level self-certainty maximization consistently outperforms greedy decoding and matches or exceeds self-consistency under comparable token budgets. Cross-linguistic evaluations further indicate that the method transfers robustly beyond high-resource languages. Furthermore, analysis of self-certainty dynamics reveals that correct reasoning trajectories converge early to stable paths, suggesting that early decisions, likely associated with the planning of the reasoning process, are predictive of final accuracy. Building on this result, we show that self-certainty maximisation applied to the early steps can explain most of the performance gain and provide a simple yet efficient inference-time scaling method.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.