계층 순서 역전: 대규모 언어 모델의 잠재적인 다중 단계 추론에 대한 재고
Layer-Order Inversion: Rethinking Latent Multi-Hop Reasoning in Large Language Models
대규모 언어 모델(LLM)은 다중 단계 추론에서 뛰어난 성능을 보이지만, 이러한 모델이 내부적으로 여러 사실을 어떻게 조합하는지는 아직 명확하지 않습니다. 최근 연구에서는 '홉 정렬 회로 가설'을 제안하며, 이는 연결 고리(bridge) 엔티티가 후속 단계 답변 전에 여러 계층에 걸쳐 순차적으로 계산된다고 주장합니다. 실제 다중 단계 질문에 대한 체계적인 분석을 통해, 이러한 홉 정렬 가정은 일반화되지 않는다는 것을 보여줍니다. 즉, 후속 단계 답변 엔티티가 연결 고리 엔티티보다 먼저 디코딩될 수 있으며, 이러한 현상을 '계층 순서 역전'이라고 부릅니다. 이러한 현상은 총 홉 수에 따라 더욱 강화되는 경향이 있습니다. 이러한 현상을 설명하기 위해, 우리는 다중 단계 추론을 얕은 MLP 계층에서의 광범위한 확률적 회수(probabilistic recall)와 심층 어텐션 계층에서의 선택적 추출(selective extraction)로 모델링하는 '확률적 회수 및 추출' 프레임워크를 제안합니다. 이 프레임워크는 체계적인 프로빙 분석을 통해 경험적으로 검증되었으며, 기존의 계층별 디코딩 증거를 재해석하고, Chain-of-Thought(사고의 사슬)의 성능 향상을 설명하며, 올바른 단일 단계 지식을 가지고 있음에도 불구하고 다중 단계 추론이 실패하는 메커니즘적 원인을 진단합니다. 관련 코드는 https://github.com/laquabe/Layer-Order-Inversion 에서 확인할 수 있습니다.
Large language models (LLMs) perform well on multi-hop reasoning, yet how they internally compose multiple facts remains unclear. Recent work proposes \emph{hop-aligned circuit hypothesis}, suggesting that bridge entities are computed sequentially across layers before later-hop answers. Through systematic analyses on real-world multi-hop queries, we show that this hop-aligned assumption does not generalize: later-hop answer entities can become decodable earlier than bridge entities, a phenomenon we call \emph{layer-order inversion}, which strengthens with total hops. To explain this behavior, we propose a \emph{probabilistic recall-and-extract} framework that models multi-hop reasoning as broad probabilistic recall in shallow MLP layers followed by selective extraction in deeper attention layers. This framework is empirically validated through systematic probing analyses, reinterpreting prior layer-wise decoding evidence, explaining chain-of-thought gains, and providing a mechanistic diagnosis of multi-hop failures despite correct single-hop knowledge. Code is available at https://github.com/laquabe/Layer-Order-Inversion.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.