그로킹은 가치가 있는가? 트랜스포머에서 일반화 회로의 기능적 분석 및 전이성 연구
Is Grokking Worthwhile? Functional Analysis and Transferability of Generalization Circuits in Transformers
대규모 언어 모델(LLM)은 사실 정보 검색에 뛰어난 성능을 보이지만, 합성 작업에서 '두 단계 추론의 저주' 문제를 자주 겪습니다. 최근 연구에 따르면, 파라미터 공유 트랜스포머는 장기간의 '그로킹' 단계를 거치면서 '일반화 회로'를 형성하여 이러한 격차를 줄일 수 있습니다. 근본적인 질문은 다음과 같습니다. '그로킹' 과정을 거친 모델이 '그로킹' 과정을 거치지 않은 모델보다 downstream 작업에서 더 우수한 성능을 보이는가? 또한, '그로킹' 단계를 기다리는 데 드는 막대한 계산 비용이 가치가 있는가? 본 연구에서는 일반화 회로가 지식 습득 및 전이에 미치는 영향을 평가하기 위한 메커니즘 연구를 수행했습니다. 우리는 다음과 같은 사실을 확인했습니다. (i) '그로킹' 과정을 거친 모델과 거치지 않은 모델 모두에서, 동일한 데이터 분포에 속하는 합성 질의에 대한 추론 경로는 동일합니다. 이는 '일반화 회로'가 새로운 추론 패러다임을 갑작스럽게 습득하는 것을 나타내지 않는다는 것을 시사합니다. 대신, 우리는 '그로킹'이 저장된 기본 사실을 자연스럽게 형성된 추론 경로에 통합하는 과정이라고 주장합니다. (ii) 장기간의 훈련을 통해 높은 정확도를 달성하고 특정 추론 경로를 형성하는 것은 필연적인 관계가 아니며, 특정 데이터 환경에서는 독립적으로 발생할 수 있습니다. (iii) 심지어 잘 구축된 회로조차도 새로운 지식을 통합할 때 제한적인 전이성을 보이며, 이는 '그로킹'된 트랜스포머가 합성 논리에 대한 완전한 이해를 달성하지 못한다는 것을 시사합니다.
While Large Language Models (LLMs) excel at factual retrieval, they often struggle with the "curse of two-hop reasoning" in compositional tasks. Recent research suggests that parameter-sharing transformers can bridge this gap by forming a "Generalization Circuit" during a prolonged "grokking" phase. A fundamental question arises: Is a grokked model superior to its non-grokked counterparts on downstream tasks? Furthermore, is the extensive computational cost of waiting for the grokking phase worthwhile? In this work, we conduct a mechanistic study to evaluate the Generalization Circuit's role in knowledge assimilation and transfer. We demonstrate that: (i) The inference paths established by non-grokked and grokked models for in-distribution compositional queries are identical. This suggests that the "Generalization Circuit" does not represent the sudden acquisition of a new reasoning paradigm. Instead, we argue that grokking is the process of integrating memorized atomic facts into an naturally established reasoning path. (ii) Achieving high accuracy on unseen cases after prolonged training and the formation of a certain reasoning path are not bound; they can occur independently under specific data regimes. (iii) Even a mature circuit exhibits limited transferability when integrating new knowledge, suggesting that "grokked" Transformers do not achieve a full mastery of compositional logic.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.