더 많이 생각하는 것이 오히려 해가 될 때: LLM 테스트 단계의 연산 확장 시 과도한 사고의 문제점
When More Thinking Hurts: Overthinking in LLM Test-Time Compute Scaling
대규모 언어 모델(LLM)의 추론 능력을 향상시키는 주요 방법으로, 연산 자원을 확장하여 더 긴 사고 과정을 활용하는 방식이 널리 사용되고 있습니다. 그러나 기존 연구는 더 긴 사고 과정이 항상 더 나은 결과를 가져온다는 전제를 가지고 있습니다. 본 연구에서는 이러한 전제가 얼마나 타당한지 체계적으로 검증합니다. 연산 예산이 증가함에 따라 추가적인 추론 토큰이 제공하는 효용이 어떻게 변화하는지 분석한 결과, 연산 예산이 높을수록 추가적인 추론의 효과는 현저히 감소하며, 모델이 '과도한 사고'를 하는 현상이 나타나는 것을 확인했습니다. 과도한 사고는 이전에 올바른 답을 제시했던 모델이 답을 변경하게 만드는 원인이 됩니다. 또한, 문제의 난이도에 따라 최적의 사고 길이가 다르다는 점을 보여주며, 균일한 연산 할당 방식이 최적의 방법이 아님을 시사합니다. 본 연구에서 개발한 비용 효율성 평가 프레임워크는, 적절한 수준의 연산 예산에서 멈추는 것이 상당한 연산 비용 절감과 동시에 비교 가능한 정확도를 유지할 수 있음을 보여줍니다.
Scaling test-time compute through extended chains of thought has become a dominant paradigm for improving large language model reasoning. However, existing research implicitly assumes that longer thinking always yields better results. This assumption remains largely unexamined. We systematically investigate how the marginal utility of additional reasoning tokens changes as compute budgets increase. We find that marginal returns diminish substantially at higher budgets and that models exhibit ``overthinking'', where extended reasoning is associated with abandoning previously correct answers. Furthermore, we show that optimal thinking length varies across problem difficulty, suggesting that uniform compute allocation is suboptimal. Our cost-aware evaluation framework reveals that stopping at moderate budgets can reduce computation significantly while maintaining comparable accuracy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.