GlimpRouter: 사유 과정의 단 한 토큰을 통해 효율적인 협업 추론
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
대규모 추론 모델(LRM)은 다단계 사유 과정을 명시적으로 생성하여 뛰어난 성능을 달성하지만, 이 능력은 상당한 추론 지연 및 계산 비용을 초래합니다. 협업 추론은 경량 모델과 대규모 모델 간에 작업을 선택적으로 분배하여 유망한 해결책을 제시하지만, 여전히 중요한 과제가 남아 있습니다. 즉, 어떤 추론 단계가 대규모 모델의 능력이나 소규모 모델의 효율성이 필요한지 결정하는 것입니다. 기존의 라우팅 전략은 로컬 토큰 확률에 의존하거나 사후 검증을 수행하며, 이는 상당한 추론 오버헤드를 발생시킵니다. 본 연구에서는 단계별 협업에 대한 새로운 관점을 제시합니다. 즉, 추론 단계의 어려움을 해당 단계의 첫 번째 토큰만으로 추론할 수 있다는 것입니다. 대규모 추론 모델에서 나타나는 "아하(Aha) 순간" 현상에서 영감을 받아, 초기 토큰의 엔트로피가 단계의 어려움을 예측하는 강력한 지표임을 보여줍니다. 이러한 통찰력을 바탕으로, 학습이 필요 없는 단계별 협업 프레임워크인 GlimpRouter를 제안합니다. GlimpRouter는 경량 모델을 사용하여 각 추론 단계의 첫 번째 토큰만 생성하고, 초기 토큰의 엔트로피가 특정 임계값을 초과하는 경우에만 해당 단계를 더 큰 모델로 라우팅합니다. 다양한 벤치마크에서 수행한 실험 결과, 제안하는 방법은 정확도를 유지하면서 추론 지연 시간을 크게 줄이는 것을 확인했습니다. 예를 들어, GlimpRouter는 AIME25 데이터셋에서 독립적인 대규모 모델에 비해 정확도가 10.7% 향상되고 추론 지연 시간이 25.9% 감소했습니다. 이러한 결과는 사유에 대한 간단하면서도 효과적인 메커니즘을 제시합니다. 즉, 전체 단계를 평가하는 대신 사유 과정의 일부(첫 번째 토큰)를 '엿보는' 것으로 계산 자원을 할당하는 것입니다.
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.