2602.10004v1 Feb 10, 2026 cs.AI

ESTAR: 효율적인 추론을 위한 조기 종료 토큰 인식 추론

ESTAR: Early-Stopping Token-Aware Reasoning For Efficient Inference

S. Batra
S. Batra
Citations: 3,677
h-index: 13
Junda Wang
Junda Wang
Citations: 388
h-index: 10
Zhichao Yang
Zhichao Yang
Citations: 653
h-index: 13
Dongxu Zhang
Dongxu Zhang
Citations: 14
h-index: 2
Robert E. Tillman
Robert E. Tillman
Citations: 19
h-index: 2

대규모 추론 모델(LRM)은 긴 사고 사슬(Chain-of-Thought)을 생성하여 최고 수준의 성능을 달성하지만, 이미 정답에 도달한 후에도 불필요한 추론에 연산을 낭비하는 경우가 많습니다. 본 논문에서는 정확도를 저하시키지 않으면서 효율성을 높이기 위해 이러한 추론의 중복성을 감지하고 줄이는 ESTAR(Early-Stopping for Token-Aware Reasoning)를 제안합니다. 우리의 방법은 (i) 추론을 안전하게 중단할 수 있는 시점을 식별하는 궤적 기반 분류기, (ii) LRM이 자체 생성 <stop> 신호를 제안하도록 학습시키는 지도 미세 조정, (iii) 연산량을 고려한 보상을 사용하여 자체 생성된 중단 지점에서 롤아웃을 종료하는 <stop> 인식 강화 학습을 결합합니다. 4가지 추론 데이터셋에 대한 실험 결과, ESTAR는 강력한 교차 도메인 일반화 성능을 보이면서 정확도를 유지(74.9% 대 74.2%)하는 동시에 추론 길이를 약 3.7배(4,799에서 1,290으로) 단축시키는 것으로 나타났습니다. 이러한 결과는 조기 종료가 LRM의 추론 효율성을 향상시키는 간단하지만 강력한 메커니즘임을 시사합니다.

Original Abstract

Large reasoning models (LRMs) achieve state-of-the-art performance by generating long chains-of-thought, but often waste computation on redundant reasoning after the correct answer has already been reached. We introduce Early-Stopping for Token-Aware Reasoning (ESTAR), which detects and reduces such reasoning redundancy to improve efficiency without sacrificing accuracy. Our method combines (i) a trajectory-based classifier that identifies when reasoning can be safely stopped, (ii) supervised fine-tuning to teach LRMs to propose self-generated <stop> signals, and (iii) <stop>-aware reinforcement learning that truncates rollouts at self-generated stop points with compute-aware rewards. Experiments on four reasoning datasets show that ESTAR reduces reasoning length by about 3.7x (from 4,799 to 1,290) while preserving accuracy (74.9% vs. 74.2%), with strong cross-domain generalization. These results highlight early stopping as a simple yet powerful mechanism for improving reasoning efficiency in LRMs.

1 Citations
0 Influential
6.5 Altmetric
33.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!