초안 기반 추론: 긴 연쇄 추론 모델에서 효율적인 추론 학습
Draft-Thinking: Learning Efficient Reasoning in Long Chain-of-Thought LLMs
긴 연쇄 추론(CoT)은 대규모 추론 모델(LRM)의 추론 능력을 향상시키는 주요 패러다임으로 자리 잡았지만, 성능 향상은 종종 상당한 추론 비용 증가를 동반합니다. 최근 연구에 따르면 기존 CoT 패러다임은 종종 체계적인 과잉 사고를 유발하며, 불필요하게 추론 능력과 추론 비용을 결합합니다. 대부분의 기존 접근 방식은 토큰 압축, 절단 또는 길이 페널티와 같은 사후 처리 기술을 통해 토큰 사용량을 줄이지만, 추론의 핵심 메커니즘을 명시적으로 다루지 않습니다. 본 연구에서는 모델이 중요한 추론 단계만 유지하는 간결한 "초안 스타일" 추론 구조를 먼저 학습하도록 유도하는 **초안 기반 추론(Draft-Thinking)**을 제안합니다. **점진적인 커리큘럼 학습**을 통해 모델은 이 효율적인 추론 패턴을 안정적으로 내재화하며, 모델의 확장성에 따라 능력을 향상시킵니다. 또한, 초안 기반 추론은 모델이 선택할 수 있는 유연한 방식으로 추론 깊이를 조절하는 **적응형 프롬프트**를 도입합니다. 광범위한 실험 결과, 초안 기반 추론은 추론 비용을 크게 줄이면서 추론 성능을 대부분 유지하는 것으로 나타났습니다. 예를 들어, MATH500 데이터셋에서 82.6%의 추론 비용 감소를 달성했지만, 성능 저하는 2.6%에 불과했습니다.
Long chain-of-thought~(CoT) has become a dominant paradigm for enhancing the reasoning capability of large reasoning models~(LRMs); however, the performance gains often come with a substantial increase in reasoning budget. Recent studies show that existing CoT paradigms tend to induce systematic overthinking, unnecessarily coupling reasoning capability with reasoning cost. Most prior approaches reduce token usage through post hoc techniques such as token compression, truncation, or length penalties, without explicitly addressing the core mechanisms of reasoning. We propose \textbf{Draft-Thinking}, which guides models to first learn a concise \textit{draft-style} reasoning structure that retains only the critical reasoning steps. Through a \textit{progressive curriculum learning}, the model stably internalizes this efficient reasoning pattern as its capability scales. Moreover, Draft-Thinking introduces adaptive prompting, which elevates reasoning depth to a flexible, model-selectable behavior. Extensive experiments demonstrate that Draft-Thinking substantially reduces reasoning budget while largely preserving reasoning performance; for example, on MATH500, it achieves an 82.6\% reduction in reasoning budget at the cost of only a 2.6\% performance drop.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.