ESTAR: 효율적인 추론을 위한 조기 종료 토큰 인식 추론
ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference
대규모 추론 모델(LRM)은 긴 사고 사슬(Chain-of-Thought)을 생성하여 최고 수준의 성능을 달성하지만, 이미 정답에 도달한 후에도 불필요한 추론에 연산을 낭비하는 경우가 많습니다. 본 논문에서는 정확도를 저하시키지 않으면서 효율성을 높이기 위해 이러한 추론의 중복성을 감지하고 줄이는 ESTAR(Early-Stopping for Token-Aware Reasoning)를 제안합니다. 우리의 방법은 (i) 추론을 안전하게 중단할 수 있는 시점을 식별하는 궤적 기반 분류기, (ii) LRM이 자체 생성 <stop> 신호를 제안하도록 학습시키는 지도 미세 조정, (iii) 연산량을 고려한 보상을 사용하여 자체 생성된 중단 지점에서 롤아웃을 종료하는 <stop> 인식 강화 학습을 결합합니다. 4가지 추론 데이터셋에 대한 실험 결과, ESTAR는 강력한 교차 도메인 일반화 성능을 보이면서 정확도를 유지(74.9% 대 74.2%)하는 동시에 추론 길이를 약 3.7배(4,799에서 1,290으로) 단축시키는 것으로 나타났습니다. 이러한 결과는 조기 종료가 LRM의 추론 효율성을 향상시키는 간단하지만 강력한 메커니즘임을 시사합니다.
Large reasoning models (LRMs) achieve state-of-the-art performance by generating long chains-of-thought, but often waste computation on redundant reasoning after the correct answer has already been reached. We introduce Early-Stopping for Token-Aware Reasoning (ESTAR), which detects and reduces such reasoning redundancy to improve efficiency without sacrificing accuracy. Our method combines (i) a trajectory-based classifier that identifies when reasoning can be safely stopped, (ii) supervised fine-tuning to teach LRMs to propose self-generated <stop> signals, and (iii) <stop>-aware reinforcement learning that truncates rollouts at self-generated stop points with compute-aware rewards. Experiments on four reasoning datasets show that ESTAR reduces reasoning length by about 3.7x (from 4,799 to 1,290) while preserving accuracy (74.9% vs. 74.2%), with strong cross-domain generalization. These results highlight early stopping as a simple yet powerful mechanism for improving reasoning efficiency in LRMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.