추론 모델의 병리적 사고 연쇄(Chain-of-Thought) 진단
Diagnosing Pathological Chain-of-Thought in Reasoning Models
사고 연쇄(Chain-of-Thought, CoT) 추론은 현대 거대언어모델(LLM) 아키텍처의 근간이며 AI 안전을 위한 중요한 개입 지점입니다. 그러나 CoT 추론은 모니터링의 유용성을 저해하는, 우리가 '병리(pathologies)'라고 칭하는 실패 양상을 보일 수 있습니다. 선행 연구에서는 세 가지 뚜렷한 병리를 확인했습니다. 모델이 미리 결정된 답에 맞춰 그럴듯한 설명을 역으로 생성하는 '사후 합리화(post-hoc rationalization)', 중간 단계가 겉보기에는 해석 가능한 텍스트 속에 정보를 숨기는 '인코딩된 추론(encoded reasoning)', 그리고 모델이 내부적으로 연산하는 동안 명시적인 추론 과정을 무의미한 채움 토큰(filler tokens)으로 대체하는 '내재화된 추론(internalized reasoning)'이 있습니다. 이러한 병리들을 더 잘 이해하고 식별하기 위해, 우리는 구현이 간단하고 계산 비용이 적으며 특정 작업에 종속되지 않는 구체적인 지표들을 만들었습니다. 우리의 접근 방식을 검증하기 위해 특정 CoT 병리를 보이도록 의도적으로 훈련된 모델 유기체(model organisms)를 개발했습니다. 본 연구는 CoT 병리를 평가하기 위한 실용적인 툴킷을 제공하며, 이는 훈련 단계 모니터링에 직접적인 시사점을 가집니다.
Chain-of-thought (CoT) reasoning is fundamental to modern LLM architectures and represents a critical intervention point for AI safety. However, CoT reasoning may exhibit failure modes that we note as pathologies, which prevent it from being useful for monitoring. Prior work has identified three distinct pathologies: post-hoc rationalization, where models generate plausible explanations backwards from predetermined answers; encoded reasoning, where intermediate steps conceal information within seemingly interpretable text; and internalized reasoning, where models replace explicit reasoning with meaningless filler tokens while computing internally. To better understand and discriminate between these pathologies, we create a set of concrete metrics that are simple to implement, computationally inexpensive, and task-agnostic. To validate our approach, we develop model organisms deliberately trained to exhibit specific CoT pathologies. Our work provides a practical toolkit for assessing CoT pathologies, with direct implications for training-time monitoring.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.