제한된 추론 공간: LLM 내 장기 추론의 굴레
Limited Reasoning Space: The cage of long-horizon reasoning in LLMs
생각의 사슬(CoT)과 같은 테스트 시간 컴퓨팅 전략은 논리적 추론 등 복잡한 작업을 해결하는 대형 언어 모델(LLM)의 능력을 크게 향상시켰다. 그러나 경험적 연구에 따르면, CoT와 같은 전형적인 작업 분해 전략을 사용할 때 단순히 컴퓨팅 예산을 늘리는 것이 때로는 테스트 시간 성능의 붕괴를 초래할 수 있다. 본 연구는 더 큰 컴퓨팅 예산에서의 추론 실패가 LLM 추론의 본질적인 경계를 거의 인식하지 못하는 정적 계획(static planning) 방법에서 기인한다는 가설을 세운다. 우리는 이를 '제한된 추론 공간(Limited Reasoning Space)' 가설이라 명명하고, 비자율 확률적 동적 시스템(non-autonomous stochastic dynamical system)의 관점에서 이론적 분석을 수행한다. 이러한 통찰은 컴퓨팅 예산에 최적의 범위가 존재함을 시사한다. 즉, 과도한 계획(over-planning)은 중복된 피드백을 초래하고 오히려 추론 능력을 손상시킬 수 있다. 컴퓨팅 확장의 이점을 활용하면서 과도한 계획을 억제하기 위해, 본 연구는 LLM 계획을 위한 모델 예측 제어 프레임워크인 Halo를 제안한다. Halo는 추론 기반 계획을 수반하는 장기(long-horizon) 작업을 위해 설계되었으며, 제어 가능한 추론을 달성하기 위해 '측정 후 계획(Measure-then-Plan)' 전략을 채택하는 엔트로피 기반 이중 제어기를 구축한다. 실험 결과에 따르면, Halo는 추론 경계에서 계획을 동적으로 조절함으로써 복잡한 장기 작업에서 정적 베이스라인을 능가하는 성능을 보여준다.
The test-time compute strategy, such as Chain-of-Thought (CoT), has significantly enhanced the ability of large language models to solve complex tasks like logical reasoning. However, empirical studies indicate that simply increasing the compute budget can sometimes lead to a collapse in test-time performance when employing typical task decomposition strategies such as CoT. This work hypothesizes that reasoning failures with larger compute budgets stem from static planning methods, which hardly perceive the intrinsic boundaries of LLM reasoning. We term it as the Limited Reasoning Space hypothesis and perform theoretical analysis through the lens of a non-autonomous stochastic dynamical system. This insight suggests that there is an optimal range for compute budgets; over-planning can lead to redundant feedback and may even impair reasoning capabilities. To exploit the compute-scaling benefits and suppress over-planning, this work proposes Halo, a model predictive control framework for LLM planning. Halo is designed for long-horizon tasks with reason-based planning and crafts an entropy-driven dual controller, which adopts a Measure-then-Plan strategy to achieve controllable reasoning. Experimental results demonstrate that Halo outperforms static baselines on complex long-horizon tasks by dynamically regulating planning at the reasoning boundary.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.