잠재적 추론 모델에서 나타나는 탐색 및 되돌아감 현상
Emergent Search and Backtracking in Latent Reasoning Models
언어 모델이 단어를 사용하지 않고 사고할 때 어떤 일이 벌어질까요? 기존의 추론 LLM은 '사고 과정'이라는 방식으로 중간 단계를 언어로 표현합니다. 반면, 잠재적 추론 트랜스포머(LRT)는 모든 추론 과정을 연속적인 은닉 공간 내에서 수행합니다. 본 연구에서는 LRT 모델을 분석하여, 다중 선택 질문-답변 벤치마크에서 모델의 사고 과정을 단계별로 파악합니다. 분석 결과, 모델은 은닉 공간 내에서 체계적인 탐색 과정을 자발적으로 학습하는 것을 확인했습니다. 추론 과정은 일관된 경로를 따르는데, 후보 답변에 대한 확률 분포를 탐색하는 단계, 가장 유망한 답변에 대한 일시적인 확신, 그리고 최종적으로 수렴하거나 되돌아가는 단계로 구성됩니다. 되돌아감 현상은 빈번하게 발생하며(전체 사례의 32%), 모델의 정확도를 향상시키는 데 기여합니다(되돌아가지 않는 경우보다 정확도가 34% 향상). 특히, 되돌아감은 의미적으로 가장 유사한 오답에서 벗어나 정답을 향하는 방향으로 주로 일어납니다. 또한, 탐색 과정은 적응적이며, 불가능한 오답을 사용하여 탐색 단계를 54% 단축할 수 있습니다. 잠재적 추론 모델은 활성화 공간에서 '사고 과정'이 언어를 통해 달성하는 것과 동일한 능력을 갖습니다. 즉, 오류를 범하고, 이를 인지하고, 그리고 회복하는 능력을 갖는 것입니다.
What happens when a language model thinks without words? Standard reasoning LLMs verbalize intermediate steps as chain-of-thought; latent reasoning transformers (LRTs) instead perform deliberation entirely in continuous hidden space. We investigate an LRT, decoding the model's evolving beliefs at every step on a multiple-choice QA benchmark. We find that the model spontaneously learns a structured search process in latent space. Deliberation follows a consistent trajectory: an exploration phase where probability mass spreads across candidates, tentative commitment to a frontrunner, and either convergence or backtracking. Backtracking is prevalent (32% of instances), beneficial (34% accuracy gain over non-backtracking instances), and predominantly directed away from the semantically closest distractor toward the correct answer. The search is adaptive: replacing distractors with implausible alternatives shortens exploration by 54%. Latent reasoning models achieve in activation space what chain-of-thought achieves through words: the ability to be wrong, notice, and recover.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.