이중 차원 일관성: 적응적 추론 시간 스케일링에서 예산과 품질의 균형
Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling
대규모 언어 모델(LLM)은 뛰어난 추론 능력을 보여주었습니다. 그러나 추론 시간 스케일링을 통해 잠재력을 극대화하는 것은 샘플링 예산과 추론 품질 사이의 균형이라는 과제를 안고 있습니다. 현재의 전략은 샘플링 폭과 깊이를 직교적인 목표로 취급하기 때문에 비효율적입니다. 폭 합의 방법은 환각을 강화할 위험이 있으며, 깊이 가지치기 메커니즘은 복잡하지만 유효한 추론 과정을 조기에 중단시킵니다. 따라서, 본 논문에서는 경로 품질과 적응적 종료를 연결하는 통합 프레임워크인 '이중 차원 일관성(DDC)'을 제안합니다. 신뢰도 가중 베이지안 프로토콜과 트렌드 인지 계층화 가지치기를 결합하여, 본 방법은 계산 자원을 고품질 추론 경로에 집중시켜 환각을 제거하고 합의를 가속화합니다. 다섯 가지 벤치마크에 대한 평가 결과, 본 방법은 토큰 소비량을 10배 이상 줄이면서 다양한 LLM에서 강력한 기준 모델의 정확도를 유지하거나 능가하는 것으로 나타났습니다.
Large Language Models (LLMs) have demonstrated remarkable abilities in reasoning. However, maximizing their potential through inference-time scaling faces challenges in trade-off between sampling budget and reasoning quality. Current strategies remain inefficient as they typically treat sampling width and depth as orthogonal objectives, where width consensus methods risk reinforcing hallucinations, while depth pruning mechanisms prematurely truncate complex yet valid reasoning chains. Therefore, we propose Dual-Dimensional Consistency (DDC), a unified framework that bridges path quality with adaptive termination. By coupling Confidence-Weighted Bayesian protocol with a Trend-Aware Stratified Pruning, our method ensures that computational resources are concentrated on high quality reasoning paths, filtering hallucinations while accelerating consensus. Evaluations across five benchmarks demonstrate that this approach reduces token consumption by over 10 times while maintaining or exceeding the accuracy of strong baselines across various LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.