MarkovScale: 추론 시 최적의 순차적 스케일링을 향하여
MarkovScale: Towards Optimal Sequential Scaling at Inference Time
순차적 스케일링은 추론 시간 스케일링의 주요 패러다임이지만, 일반적으로 성능 향상이 미미하며 명확하게 이해되지 않는 경우가 많습니다. 이는 주로 휴리스틱하고 원칙에 기반하지 않은 접근 방식이 명확한 최적성 경계를 가리고 있기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 순차적 스케일링을 두 상태 마르코프 프로세스로 모델링하는 원칙적인 프레임워크를 제안합니다. 이 접근 방식은 순차적 스케일링의 근본적인 특성을 밝혀내고 정확도 향상 조건 및 이론적인 상한, 중립, 하한 성능 경계를 포함한 필수적인 측면에 대한 폐쇄형 솔루션을 제공합니다. 이러한 공식화를 활용하여, 우리는 최적성 기준을 적용하여 정확성과 효율성 간의 이론적으로 뒷받침되는 균형을 달성하는 실용적인 시스템인 MarkovScale을 개발했습니다. 3개의 기본 LLM, 5개의 벤치마크 및 20개 이상의 구성에 대한 종합적인 실험 결과, MarkovScale은 최첨단 병렬 및 순차적 스케일링 방법보다 일관되게 우수한 성능을 보이며, LLM에서 최적이고 효율적인 추론을 향한 중요한 진전을 보여줍니다. 소스 코드는 발표 승인 후 다음 주소에서 공개될 예정입니다: https://open-upon-acceptance.
Sequential scaling is a prominent inference-time scaling paradigm, yet its performance improvements are typically modest and not well understood, largely due to the prevalence of heuristic, non-principled approaches that obscure clear optimality bounds. To address this, we propose a principled framework that models sequential scaling as a two-state Markov process. This approach reveals the underlying properties of sequential scaling and yields closed-form solutions for essential aspects, such as the specific conditions under which accuracy is improved and the theoretical upper, neutral, and lower performance bounds. Leveraging this formulation, we develop MarkovScale, a practical system that applies these optimality criteria to achieve a theoretically grounded balance between accuracy and efficiency. Comprehensive experiments across 3 backbone LLMs, 5 benchmarks, and over 20 configurations show that MarkovScale consistently outperforms state-of-the-art parallel and sequential scaling methods, representing a significant step toward optimal and resource-efficient inference in LLMs. The source code will be open upon acceptance at https://open-upon-acceptance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.