ThinkRouter: 잠재 공간과 이산 공간 간의 사고 라우팅을 통한 효율적인 추론
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces
최근 연구들은 명시적인 추론 궤적을 잠재 공간의 연속적인 표현으로 대체하여 추론 효율성을 높이는 잠재 추론(latent reasoning)을 탐구하고 있지만, 그 효과는 설정에 따라 다르게 나타납니다. 잠재 추론 하에서의 모델 신뢰도 역학을 분석한 결과, 오답으로 끝나는 사고 궤적은 정답으로 끝나는 궤적보다 낮은 신뢰도 단계를 더 적게 포함하는 것으로 나타났습니다. 한편, 다수의 낮은 신뢰도 사고 대안들이 집계된 소프트 임베딩은 노이즈를 유발하고 전파하여, 신뢰할 수 없는 추론 궤적에 대해 높은 신뢰도를 갖게 할 수 있음을 시사합니다. 이러한 관찰에 기반하여, 효율적인 추론을 위해 높은 신뢰도와 노이즈를 회피하는 추론 시점 신뢰도 인식 라우팅 메커니즘인 ThinkRouter를 제안합니다. ThinkRouter는 모델 신뢰도가 낮을 때는 사고를 이산 토큰 공간(discrete token space)으로, 그렇지 않을 때는 잠재 공간으로 라우팅합니다. 다양한 대규모 추론 모델을 대상으로 한 STEM 추론 및 코딩 벤치마크 실험 결과, ThinkRouter는 명시적 CoT, 무작위 라우팅, 잠재 추론 베이스라인 대비 정확도 측면에서 우수한 성능을 보였으며, Pass@1 점수는 평균 19.70점 향상되었고 생성 길이는 최대 15.55% 단축되었습니다. 추가적인 종합 분석을 통해 ThinkRouter가 명시적 CoT와 잠재 추론에서 발생하는 오류를 교정할 수 있으며, 모델 신뢰도를 전반적으로 낮춤으로써 사고 종료(end-of-thinking) 토큰 생성을 가속화한다는 사실을 확인했습니다.
Recent work explores latent reasoning to improve reasoning efficiency by replacing explicit reasoning trajectories with continuous representations in a latent space, yet its effectiveness varies across settings. Analysis of model confidence dynamics under latent reasoning reveals that thinking trajectories ending in incorrect answers contain fewer low-confidence steps than those ending in correct answers. Meanwhile, we suggest that soft embeddings aggregated by multiple low-confidence thinking alternatives may introduce and propagate noise, leading to high confidence in unreliable reasoning trajectories. Motivated by these observations, ThinkRouter, an inference-time confidence-aware routing mechanism is proposed to avoid high confidence and noise for efficient reasoning. ThinkRouter routes thinking to the discrete token space when model confidence is low, and to the latent space otherwise. Extensive experiments on STEM reasoning and coding benchmarks across diverse large reasoning models demonstrate that ThinkRouter outperforms explicit CoT, random routing, and latent reasoning baselines in terms of accuracy, achieving an average improvement of 19.70 points in Pass@1, while reducing generation length by up to 15.55%. Further comprehensive analysis reveals that ThinkRouter can calibrate errors arising from explicit CoT and latent reasoning, and accelerates end-of-thinking token generation by globally lowering model confidence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.