2601.07036v1 Jan 11, 2026 cs.CL

미드-씽크(Mid-Think): 토큰 레벨 트리거를 활용한 학습 불필요한 중간 수준의 추론

Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers

Debargha Ganguly
Debargha Ganguly
Citations: 34
h-index: 3
Vikash Singh
Vikash Singh
Case Western Reserve University
Citations: 14
h-index: 2
Wang Yang
Wang Yang
Citations: 52
h-index: 3
Shouren Wang
Shouren Wang
Case Western Reserve University
Citations: 2
h-index: 1
Chaoda Song
Chaoda Song
Citations: 4
h-index: 1
Xinpeng Li
Xinpeng Li
Citations: 48
h-index: 3
Vipin Chaudhary
Vipin Chaudhary
Citations: 97
h-index: 5
Xiaotian Han
Xiaotian Han
Citations: 80
h-index: 5

하이브리드 추론 언어 모델은 일반적으로 추론 동작을 제어하기 위해 '생각(Think)' 또는 '생각하지 않음(No-think)'과 같은 고수준 명령어를 사용하지만, 우리는 이러한 모드 전환이 명령어 자체가 아닌 소수의 트리거 토큰에 의해 주로 결정된다는 사실을 발견했습니다. 어텐션 분석 및 통제된 프롬프트 실험을 통해, 특정 'Okay' 토큰이 추론 동작을 유발하는 반면, '</think>' 뒤에 오는 줄 바꿈 패턴은 이를 억제한다는 것을 확인했습니다. 이러한 관찰을 바탕으로, 우리는 학습이 필요 없는 간단한 프롬프트 형식인 '미드-씽크(Mid-Think)'를 제안합니다. 이 형식은 이러한 트리거를 결합하여 중간 수준의 추론을 수행하며, 정확도-길이 균형 측면에서 기존의 고정 토큰 및 프롬프트 기반 모델을 꾸준히 능가합니다. 또한, 우리는 '미드-씽크'를 SFT(Supervised Fine-Tuning) 후 강화 학습(RL)에 적용하여 학습 시간을 약 15% 단축하고, Qwen3-8B 모델의 AIME 테스트 성능을 69.8%에서 72.4%로, GPQA 테스트 성능을 58.5%에서 61.1%로 향상시켰습니다. 이는 '미드-씽크'가 추론 시간 제어 및 RL 기반 추론 학습 모두에 효과적임을 보여줍니다.

Original Abstract

Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay'' token induces reasoning behavior, while the newline pattern following ``</think>'' suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!