GlimpRouter: 생각의 토큰 하나를 엿보아 달성하는 효율적인 협업 추론
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
대형 추론 모델(LRM)은 다단계 사고 사슬(Chain of Thought)을 명시적으로 생성하여 놀라운 성능을 달성하지만, 이러한 능력은 상당한 추론 지연 시간과 계산 비용을 초래합니다. 협업 추론은 경량 모델과 대형 모델 사이에 작업을 선택적으로 할당하여 유망한 해결책을 제공하지만, 추론 단계가 대형 모델의 용량을 필요로 하는지 아니면 소형 모델의 효율성으로 충분한지를 결정하는 근본적인 과제가 남아 있습니다. 기존의 라우팅 전략들은 국소적 토큰 확률이나 사후 검증에 의존하여 상당한 추론 오버헤드를 발생시킵니다. 본 연구에서는 단계별 협업에 대한 새로운 관점을 제안합니다. 즉, 추론 단계의 난이도는 그 단계의 가장 첫 번째 토큰에서 파악할 수 있다는 것입니다. LRM에서의 '아하 모먼트(Aha Moment)' 현상에서 영감을 받아, 우리는 초기 토큰의 엔트로피가 단계별 난이도의 강력한 예측 지표 역할을 함을 보여줍니다. 이러한 통찰을 바탕으로, 우리는 별도의 훈련이 필요 없는 단계별 협업 프레임워크인 GlimpRouter를 소개합니다. GlimpRouter는 경량 모델을 사용하여 각 추론 단계의 첫 번째 토큰만을 생성하고, 초기 토큰의 엔트로피가 임계값을 초과할 때만 해당 단계를 더 큰 모델로 라우팅합니다. 여러 벤치마크에 대한 실험 결과, 우리의 접근 방식은 정확도를 유지하면서 추론 지연 시간을 크게 줄이는 것으로 나타났습니다. 예를 들어, AIME25에서 GlimpRouter는 단독 대형 모델에 비해 추론 지연 시간을 25.9% 줄이면서도 정확도를 10.7%나 상당히 향상시켰습니다. 이러한 결과는 추론을 위한 간단하면서도 효과적인 메커니즘을 시사합니다. 즉, 전체 단계 평가가 아닌 생각의 편린(glimpse)에 기반하여 계산 자원을 할당하는 것입니다.
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.