체인 오브 씽크(Chain-of-Thought)가 실패할 때, 해결책은 숨겨진 상태에 숨겨져 있다.
When Chain-of-Thought Fails, the Solution Hides in the Hidden States
중간 추론이 계산적으로 유용한지, 아니면 단순히 설명적인지에 대한 판단은 체인 오브 씽크(CoT) 토큰이 작업과 관련된 정보를 포함하고 있는지 여부에 달려 있습니다. 본 연구에서는 활성화 패치(activation patching)를 사용하여 GSM8K 데이터셋에 대한 CoT의 메커니즘적 인과 관계를 분석합니다. 구체적으로, 동일한 질문에 대한 CoT 생성 과정에서 토큰 수준의 숨겨진 상태를 추출하여 직접 답변 생성 과정에 적용하고, 최종 답변 정확도에 미치는 영향을 측정합니다. 여러 모델에서 패치 후 생성된 결과는 직접 답변 프롬프트와 원래 CoT 추적 모두보다 훨씬 높은 정확도를 보입니다. 이는 개별 CoT 토큰이 올바른 답변을 복구할 수 있을 만큼 충분한 정보를 포함할 수 있음을 보여줍니다. 작업과 관련된 정보는 올바른 CoT 실행에서 잘못된 CoT 실행보다 더 흔하게 나타나며, 토큰 전체에 고르게 분포하지 않고 중간에서 후반 계층에 집중되어 있으며, 추론 과정의 초기에 더 자주 나타납니다. 또한, 동사나 명사와 같은 언어 토큰은 문제 해결에 필요한 정보를 담고 있어 생성 과정을 올바른 추론으로 이끄는 반면, 수학적 토큰은 정답과 관련된 내용을 담고 있지만 성공적인 결과를 드물게 보여줍니다. 패치된 결과는 종종 더 짧지만 전체 CoT 추적보다 정확도가 높으며, 이는 완전한 추론 과정이 항상 필요한 것은 아님을 시사합니다. 종합적으로, 본 연구는 CoT가 복구 가능한 토큰 수준의 문제 해결 정보를 포함하고 있음을 보여주며, 이는 추론이 어떻게 표현되는지, 그리고 어디에서 오류가 발생하는지에 대한 새로운 통찰력을 제공합니다.
Whether intermediate reasoning is computationally useful or merely explanatory depends on whether chain-of-thought (CoT) tokens contain task-relevant information. We present a mechanistic causal analysis of CoT on GSM8K using activation patching: transferring token-level hidden states from a CoT generation to a direct-answer run for the same question, then measuring the effect on final-answer accuracy. Across models, generating after patching yields substantially higher accuracy than both direct-answer prompting and the original CoT trace, revealing that individual CoT tokens can encode sufficient information to recover the correct answer, even when the original trace is incorrect. This task-relevant information is more prevalent in correct than incorrect CoT runs and is unevenly distributed across tokens, concentrating in mid-to-late layers and appearing earlier in the reasoning trace. Moreover, patching language tokens such as verbs and entities carry task-solving information that steers generation toward correct reasoning, whereas mathematical tokens encode answer-proximal content that rarely succeeds. Patched outputs are often shorter and yet exceed the accuracy of a full CoT trace, suggesting complete reasoning chains are not always necessary. Together, these findings demonstrate that CoT encodes recoverable, token-level problem-solving information, offering new insight into how reasoning is represented and where it breaks down.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.