2601.20164v1 Jan 28, 2026 cs.LG

계획은 무엇일까요? LLM의 암묵적 계획을 측정하는 방법과 그것이 운문 생성 및 질의응답에 적용되는 방식

What's the plan? Metrics for implicit planning in LLMs and their application to rhyme generation and question answering

Jim Maar
Jim Maar
Citations: 4
h-index: 1
D. Paperno
D. Paperno
Citations: 8
h-index: 2
C. McDougall
C. McDougall
Citations: 735
h-index: 4
Neel Nanda
Neel Nanda
Citations: 94
h-index: 6

이전 연구에 따르면, 다음 토큰 예측으로 학습된 언어 모델은 암묵적인 계획 행동을 보입니다. 예를 들어, Claude 3.5 Haiku에 대한 이전의 질적 연구에서 교차 레이어 변환기를 사용하여, 모델이 특정 미래 토큰(예: 운율이 맞는 단어)을 예측하기 위해 다음 토큰을 선택할 수 있다는 사실이 밝혀졌습니다. 본 연구에서는 언어 모델의 암묵적 계획을 평가하기 위한 훨씬 더 간단한 기술을 제안합니다. 운문 생성 및 질의응답에 대한 사례 연구를 통해, 우리의 방법론이 다양한 모델에 쉽게 적용될 수 있음을 보여줍니다. 여러 모델을 분석한 결과, 이전 줄의 마지막 부분에 벡터를 적용하여 생성된 운율(예: "-ight") 또는 질문에 대한 답변("whale")을 조작할 수 있으며, 이는 운율 또는 답변 단어에 이르기 전의 중간 토큰 생성에 영향을 미칩니다. 우리는 암묵적 계획이 10억 개의 파라미터부터 시작하여 이전에 생각했던 것보다 작은 모델에서도 나타나는 보편적인 메커니즘임을 보여줍니다. 우리의 방법론은 LLM의 암묵적 계획 능력을 연구하는 데 널리 적용될 수 있는 직접적인 방법을 제공합니다. 더 넓은 관점에서, 언어 모델의 계획 능력을 이해하는 것은 AI 안전 및 제어에 대한 의사 결정에 도움이 될 수 있습니다.

Original Abstract

Prior work suggests that language models, while trained on next token prediction, show implicit planning behavior: they may select the next token in preparation to a predicted future token, such as a likely rhyming word, as supported by a prior qualitative study of Claude 3.5 Haiku using a cross-layer transcoder. We propose much simpler techniques for assessing implicit planning in language models. With case studies on rhyme poetry generation and question answering, we demonstrate that our methodology easily scales to many models. Across models, we find that the generated rhyme (e.g. "-ight") or answer to a question ("whale") can be manipulated by steering at the end of the preceding line with a vector, affecting the generation of intermediate tokens leading up to the rhyme or answer word. We show that implicit planning is a universal mechanism, present in smaller models than previously thought, starting from 1B parameters. Our methodology offers a widely applicable direct way to study implicit planning abilities of LLMs. More broadly, understanding planning abilities of language models can inform decisions in AI safety and control.

4 Citations
2 Influential
3 Altmetric
23.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!