2604.12493v1 Apr 14, 2026 cs.CL

규모가 커짐에 따라 잠재적인 계획 능력이 나타난다

Latent Planning Emerges with Scale

Michael Hanna
Michael Hanna
Citations: 921
h-index: 10
Emmanuel Ameisen
Emmanuel Ameisen
Citations: 652
h-index: 4

LLM(대규모 언어 모델)은 명시적인 계획을 세우지 않고도 일관성 있는 이야기를 쓰거나 코드를 실행하는 등, 겉보기에는 계획적인 작업들을 수행할 수 있습니다. 하지만 LLM이 어느 정도까지 암묵적으로 계획을 세우는지에 대한 연구는 아직 부족합니다. 본 논문에서는 LLM이 내부적으로 계획 관련 표현을 가지고 있을 때, 그 표현이 (1) 특정 미래 토큰이나 개념의 생성을 유발하고, (2) 앞선 맥락을 형성하여 해당 미래 토큰이나 개념을 가능하게 하는 현상을 '잠재적인 계획'이라고 정의합니다. 우리는 Qwen-3 모델 패밀리(0.6B-14B)를 사용하여 간단한 계획 관련 작업을 수행하고, 잠재적인 계획 능력이 모델의 규모가 커짐에 따라 증가한다는 것을 확인했습니다. 계획 능력을 가진 모델들은 'accountant(회계사)'와 같은 계획된 단어와 관련된 특징을 가지고 있으며, 이로 인해 'a' 대신 'an'을 출력하는 경향이 있습니다. 또한, 성능이 상대적으로 낮은 Qwen-3 4B-8B 모델에서도 초기 단계의 계획 메커니즘이 존재합니다. 더 복잡한 작업인 라임이 있는 두 줄 문장 완성을 수행할 때, 모델들이 종종 미리 라임을 파악하지만, 심지어 큰 모델조차도 먼 미래까지 계획하는 경우는 드뭅니다. 하지만, 모델을 산문에서 계획된 단어를 향하게 유도하면, 일부 계획 능력을 이끌어낼 수 있으며, 이는 모델의 규모가 커짐에 따라 증가합니다. 결론적으로, 본 논문에서는 계획 능력을 측정하기 위한 프레임워크를 제시하고, 모델의 계획 능력이 규모가 커짐에 따라 어떻게 발전하는지에 대한 메커니즘적인 증거를 제공합니다.

Original Abstract

LLMs can perform seemingly planning-intensive tasks, like writing coherent stories or functioning code, without explicitly verbalizing a plan; however, the extent to which they implicitly plan is unknown. In this paper, we define latent planning as occurring when LLMs possess internal planning representations that (1) cause the generation of a specific future token or concept, and (2) shape preceding context to license said future token or concept. We study the Qwen-3 family (0.6B-14B) on simple planning tasks, finding that latent planning ability increases with scale. Models that plan possess features that represent a planned-for word like "accountant", and cause them to output "an" rather than "a"; moreover, even the less-successful Qwen-3 4B-8B have nascent planning mechanisms. On the more complex task of completing rhyming couplets, we find that models often identify a rhyme ahead of time, but even large models seldom plan far ahead. However, we can elicit some planning that increases with scale when steering models towards planned words in prose. In sum, we offer a framework for measuring planning and mechanistic evidence of how models' planning abilities grow with scale.

4 Citations
0 Influential
5 Altmetric
29.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!