사후 추론: 추가 비용 없이 비추론 모델의 성능 향상
Post Reasoning: Improving the Performance of Non-Thinking Models at No Cost
대규모 언어 모델(LLM)의 광범위한 도입이 가속화됨에 따라, 중간 추론 과정에서 발생하는 토큰 소비량이 추론 지연 및 운영 비용에 큰 영향을 미칩니다. 최근 연구에 따르면, 많은 실제 작업에서는 명시적인 추론이 거의 필요하지 않으며, 오히려 추가적인 추론이 성능을 저하시키는 경우도 있습니다. 본 연구에서는 간단하지만 효과적인 방법인 **사후 추론(Post-Reasoning)**을 제안합니다. 이는 최종 응답을 생성한 후, 모델이 자신의 답변을 정당화하도록 조건을 부여하여, 명령어 튜닝된 모델의 성능을 향상시키는 방법입니다. 사후 추론은 설계상 추가적인 지연이나 토큰 비용 없이 최종 답변을 얻을 수 있도록 하며, 간단한 명령어 추가를 통해 성능을 향상시킵니다. 우리는 13개의 공개 및 독점 모델, 4개의 모델 패밀리, 그리고 AMC, HMMT, GSM8K, GPQA, MMLU-Pro, BIG-Bench Hard를 포함한 9개의 다양한 추론 및 지식 기반 벤치마크를 활용하여 117개의 모델-벤치마크 환경에서 사후 추론을 평가했습니다. 사후 추론은 평가된 환경의 88.19% 이상에서 성능을 향상시켰으며, 평균적으로 17.37%의 상대적인 성능 향상을 달성했습니다. 또한, 우리는 지도 학습 기반의 사후 추론 튜닝을 제안하여, 평가된 환경의 91.11% 이상에서 성능을 더욱 향상시켰습니다. 이는 평균적으로 프롬프트 기반 사후 추론의 기준 성능을 8.01% 이상 능가하는 것으로, 사후 추론이 학습을 통해 효과적으로 내재화될 수 있음을 보여줍니다. 궁극적으로, 사후 추론은 직접 답변 능력에 대한 새로운 성능 기준을 제시합니다.
As the widespread adoption of Large Language Models (LLMs) accelerates, token consumption from intermediate reasoning traces increasingly contributes to inference latency and operational cost. Recent studies suggest that many real-world tasks require little to no explicit reasoning, with additional reasoning sometimes even degrading performance. In this work, we propose \textbf{Post-Reasoning}, a simple yet effective approach that improves instruction-tuned models by conditioning them to justify their answers after generating the final response. By design, it enables the final answer to be obtained without additional latency or token cost, while still improving performance through simple instruction augmentation. We evaluate Post-Reasoning across \(117\) model--benchmark settings spanning \(13\) open and proprietary models, \(4\) model families, and \(9\) diverse reasoning and knowledge-intensive benchmarks, including AMC, HMMT, GSM8K, GPQA, MMLU-Pro, and BIG-Bench Hard. Post-Reasoning improves performance in over \(88.19\%\) of evaluated settings, achieving a mean relative improvements of \(17.37\%\). Furthermore, we propose supervised post-reason tuning, which further improves performance in over \(91.11\%\) of evaluated settings, and exceeds the prompt-based post-reasoning baseline by an average of \(8.01\%\), demonstrating that post-reasoning can be effectively internalized through training. Ultimately, Post-Reasoning establishes a new performance ceiling for direct-answer capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.