2601.09855v1 Jan 14, 2026 cs.AI

길게, 그러나 짧게 생각하기: 대형 추론 모델을 위한 안정적인 순차적 테스트 시간 스케일링

Thinking Long, but Short: Stable Sequential Test-Time Scaling for Large Reasoning Models

Michael R. Metel
Michael R. Metel
Citations: 126
h-index: 6
Boxing Chen
Boxing Chen
Citations: 39
h-index: 2
Prasanna Parthasarathi
Prasanna Parthasarathi
McGill University
Citations: 493
h-index: 10
Yufei Cui
Yufei Cui
Citations: 31
h-index: 3

순차적 테스트 시간 스케일링은 대형 추론 모델의 정확도를 향상시킬 수 있는 유망한 비학습(training-free) 방법이지만, 현재의 구현 방식에서는 중대한 한계점들이 관찰되었습니다. 모델이 더 오래 생각하도록 유도하면 정확도를 높일 수 있으나, 추론 길이가 더욱 연장됨에 따라 오히려 정확도 저하와 모델 불안정성을 초래하는 것으로 나타났습니다. 본 연구에서는 새로운 순차적 테스트 시간 스케일링 방법인 Min-Seek를 제안합니다. 이 방법은 유도된 생각의 광범위한 범위에 걸쳐 모델 정확도를 크게 향상시키고, 순차적 스케일링의 정확도를 안정화하며, 추론 길이에 대한 미세 조정(fine-tuning)의 필요성을 제거합니다. 다양한 추론 작업에서 모델 정확도를 개선하는 것 외에도, 우리의 방법은 추론 중에 추가로 유도된 하나의 생각에 대한 KV 쌍(KV pairs)만을 KV 캐시에 유지하므로 본질적으로 효율적입니다. 위치 임베딩 없이 키를 저장하는 맞춤형 KV 캐시를 사용하고, 각 새로운 생각이 생성되기 전에 동적으로 이들을 연속적으로 인코딩함으로써, 제안하는 방법은 모델의 최대 컨텍스트 길이를 훨씬 초과하여 추론을 지속할 수 있으며, 완만한 조건 하에서 선형적 계산 복잡도를 가집니다.

Original Abstract

Sequential test-time scaling is a promising training-free method to improve large reasoning model accuracy, but as currently implemented, significant limitations have been observed. Inducing models to think for longer can increase their accuracy, but as the length of reasoning is further extended, it has also been shown to result in accuracy degradation and model instability. This work presents a novel sequential test-time scaling method, Min-Seek, which improves model accuracy significantly over a wide range of induced thoughts, stabilizing the accuracy of sequential scaling, and removing the need for reasoning length fine-tuning. Beyond improving model accuracy over a variety of reasoning tasks, our method is inherently efficient, as only the KV pairs of one additional induced thought are kept in the KV cache during reasoning. With a custom KV cache which stores keys without position embeddings, by dynamically encoding them contiguously before each new generated thought, our method can continue to reason well beyond a model's maximum context length, and under mild conditions has linear computational complexity.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!