2601.07036v1 Jan 11, 2026 cs.CL

미드-씽크(Mid-Think): 토큰 레벨 트리거를 활용한 학습 불필요한 중간 수준의 추론

Mid-Think: Training-Free Intermediate-Budget Reasoning via Token-Level Triggers

Debargha Ganguly
Debargha Ganguly
Citations: 39
h-index: 3
Vikash Singh
Vikash Singh
Case Western Reserve University
Citations: 12
h-index: 2
Wang Yang
Wang Yang
Citations: 56
h-index: 3
Shouren Wang
Shouren Wang
Case Western Reserve University
Citations: 2
h-index: 1
Chaoda Song
Chaoda Song
Citations: 8
h-index: 2
Xinpeng Li
Xinpeng Li
Citations: 53
h-index: 3
Vipin Chaudhary
Vipin Chaudhary
Citations: 116
h-index: 5
Xiaotian Han
Xiaotian Han
Citations: 95
h-index: 5

하이브리드 추론 언어 모델은 일반적으로 추론 동작을 제어하기 위해 '생각(Think)' 또는 '생각하지 않음(No-think)'과 같은 고수준 명령어를 사용하지만, 우리는 이러한 모드 전환이 명령어 자체가 아닌 소수의 트리거 토큰에 의해 주로 결정된다는 사실을 발견했습니다. 어텐션 분석 및 통제된 프롬프트 실험을 통해, 특정 'Okay' 토큰이 추론 동작을 유발하는 반면, '</think>' 뒤에 오는 줄 바꿈 패턴은 이를 억제한다는 것을 확인했습니다. 이러한 관찰을 바탕으로, 우리는 학습이 필요 없는 간단한 프롬프트 형식인 '미드-씽크(Mid-Think)'를 제안합니다. 이 형식은 이러한 트리거를 결합하여 중간 수준의 추론을 수행하며, 정확도-길이 균형 측면에서 기존의 고정 토큰 및 프롬프트 기반 모델을 꾸준히 능가합니다. 또한, 우리는 '미드-씽크'를 SFT(Supervised Fine-Tuning) 후 강화 학습(RL)에 적용하여 학습 시간을 약 15% 단축하고, Qwen3-8B 모델의 AIME 테스트 성능을 69.8%에서 72.4%로, GPQA 테스트 성능을 58.5%에서 61.1%로 향상시켰습니다. 이는 '미드-씽크'가 추론 시간 제어 및 RL 기반 추론 학습 모두에 효과적임을 보여줍니다.

Original Abstract

Hybrid reasoning language models are commonly controlled through high-level Think/No-think instructions to regulate reasoning behavior, yet we found that such mode switching is largely driven by a small set of trigger tokens rather than the instructions themselves. Through attention analysis and controlled prompting experiments, we show that a leading ``Okay'' token induces reasoning behavior, while the newline pattern following ``</think>'' suppresses it. Based on this observation, we propose Mid-Think, a simple training-free prompting format that combines these triggers to achieve intermediate-budget reasoning, consistently outperforming fixed-token and prompt-based baselines in terms of the accuracy-length trade-off. Furthermore, applying Mid-Think to RL training after SFT reduces training time by approximately 15% while improving final performance of Qwen3-8B on AIME from 69.8% to 72.4% and on GPQA from 58.5% to 61.1%, demonstrating its effectiveness for both inference-time control and RL-based reasoning training.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!