시간적 추론 집계를 통한 효율적인 테스트 시간 스케일링
Efficient Test-Time Scaling via Temporal Reasoning Aggregation
테스트 시간 스케일링은 대규모 언어 모델의 추론 성능을 향상시키지만, 종종 불필요한 토큰 사용을 초래하며, 모델이 정확한 답변을 얻기 위해 필요한 것 이상으로 계속 추론하는 현상을 발생시킵니다. 기존의 동적 조기 종료 방법은 일반적으로 신뢰도 신호를 단일 단계로 활용하는데, 이는 다단계 추론 환경에서 추론의 수렴 여부를 감지하는 데 종종 신뢰성이 떨어집니다. 이러한 한계를 극복하기 위해, 본 논문에서는 효율적인 테스트 시간 스케일링을 위한 훈련이 필요 없는 프레임워크인 TRACE를 제안합니다. TRACE는 즉각적인 신호가 아닌, 여러 단계의 증거를 시간적으로 집계하여 추론 종료 시점을 결정합니다. TRACE는 최근 추론 단계에서 수집된 두 가지 상호 보완적인 신호를 집계하여 시간의 흐름에 따른 추론의 수렴 여부를 감지합니다. 첫 번째 신호는 예측된 답변의 일관성을 나타내며, 두 번째 신호는 모델의 신뢰도 변화를 모델링합니다. 이러한 두 가지 요인의 이점을 활용하여, TRACE는 추론 과정이 수렴되었는지 정확하게 판단하고, 이에 따라 불필요한 추론 단계를 즉시 중단하여 효율성을 높입니다. 다양한 어려운 벤치마크에 대한 광범위한 실험 결과, TRACE는 평균적으로 추론에 사용되는 토큰 수를 25-30% 줄이면서, 전체 길이 추론과 1-2% 이내의 정확도를 유지하며, 기존의 동적 추론 방법보다 우수한 성능을 보였습니다.
Test-time scaling improves the reasoning performance of large language models but often results in token-inefficient overthinking, where models continue reasoning beyond what is necessary for a correct answer. Existing dynamic early-exit methods typically rely on single-step confidence signals, which are often unreliable for detecting reasoning convergence in multi-step settings. To mitigate this limitation, we propose TRACE, a training-free framework for efficient test-time scaling that determines when to terminate reasoning based on temporal aggregation of multi-step evidence rather than instantaneous signals. TRACE detects reasoning convergence over time by aggregating two complementary signals across recent reasoning steps: answer consistency, capturing the persistence of predicted answers, and confidence trajectory, modeling the temporal evolution of model confidence. Benefiting from these two factors, TRACE can accurately determine whether the reasoning process has converged, thereby promptly halting inference and effectively avoiding redundant reasoning steps. Extensive experiments on multiple challenging benchmarks show that TRACE reduces reasoning token usage by 25-30% on average while maintaining accuracy within 1-2% of full-length reasoning, consistently outperforming existing dynamic reasoning methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.