투명한 연속 심층 구조를 통한 사고 과정의 필요성 정량화
Quantifying the Necessity of Chain of Thought through Opaque Serial Depth
대규모 언어 모델(LLM)은 사고 과정을 체인 오브 씽크(Chain of Thought, CoT) 형태로 외부로 드러내는 경향이 있는데, 이는 CoT를 모니터링하기에 좋은 대상이 됩니다. 이는 트랜스포머 아키텍처의 고유한 특징의 일부이며, 충분히 긴 연속적인 사고 과정은 CoT를 통해 전달되어야 합니다 (Korbak et al., 2025). 우리는 '불투명한 연속 심층도(opaque serial depth)'라는 개념을 통해 이러한 주장을 명확히 합니다. 불투명한 연속 심층도는 해석 가능한 중간 단계(예: CoT) 없이 수행할 수 있는 가장 긴 계산의 길이를 의미합니다. 이러한 정의를 바탕으로, 우리는 Gemma 3 모델의 불투명한 연속 심층도에 대한 수치적 상한을 계산하고, 표준 LLM을 넘어선 추가적인 아키텍처에 대한 점근적 결과를 도출합니다. 또한, 임의의 신경망의 불투명한 연속 심층도에 대한 상한을 계산할 수 있는 자동화된 방법을 공개하고, 이를 사용하여 Mixture-of-Experts 모델이 밀집 모델보다 낮은 심층도를 가질 가능성이 높다는 것을 보여줍니다. 전반적으로, 우리의 결과는 불투명한 연속 심층도가 모델이 외부로 드러내지 않는 중요한 추론 능력을 이해하는 데 유용한 도구임을 시사합니다.
Large language models (LLMs) tend to externalize their reasoning in their chain of thought, making the chain of thought a good target for monitoring. This is partially an inherent feature of the Transformer architecture: sufficiently long serial cognition must pass through the chain of thought (Korbak et al., 2025). We formalize this argument through the notion of opaque serial depth, given by the length of the longest computation that can be done without the use of interpretable intermediate steps like chain of thought. Given this formalization, we compute numeric upper bounds on the opaque serial depth of Gemma 3 models, as well as asymptotic results for additional architectures beyond standard LLMs. We also open-source an automated method that can calculate upper bounds on the opaque serial depth of arbitrary neural networks, and use it to demonstrate that Mixture-of-Experts models likely have lower depth than dense models. Overall, our results suggest that opaque serial depth is a useful tool for understanding the potential for models to do significant reasoning that is not externalized.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.