2602.01992v1 Feb 02, 2026 cs.AI

트랜스포머에서의 창발적 유추 추론

Emergent Analogical Reasoning in Transformers

Gouki Minegishi
Gouki Minegishi
Citations: 82
h-index: 6
Jingyuan Feng
Jingyuan Feng
Citations: 4
h-index: 1
Hiroki Furuta
Hiroki Furuta
Citations: 2,296
h-index: 15
Takeshi Kojima
Takeshi Kojima
Citations: 6,714
h-index: 6
Yusuke Iwasawa
Yusuke Iwasawa
Citations: 9,687
h-index: 20
Yutaka Matsuo
Yutaka Matsuo
Citations: 1,232
h-index: 10

유추는 인간 지능의 핵심 능력으로, 한 도메인에서 발견된 추상적 패턴을 다른 도메인에 적용할 수 있게 해줍니다. 인지 과정에서의 중추적인 역할에도 불구하고, 트랜스포머가 유추적 추론을 습득하고 구현하는 메커니즘은 여전히 명확히 밝혀지지 않았습니다. 본 연구에서는 범주론의 함자(functor) 개념에서 영감을 받아, 유추적 추론을 범주 간 개체들 사이의 대응 관계를 추론하는 것으로 정식화합니다. 이러한 정식화를 바탕으로 통제된 환경에서 유추적 추론의 창발을 평가하는 합성 과제들을 소개합니다. 연구 결과, 유추적 추론의 창발은 데이터 특성, 최적화 방식, 그리고 모델 규모에 매우 민감한 것으로 나타났습니다. 메커니즘 분석을 통해 트랜스포머의 유추적 추론이 (1) 임베딩 공간 내 관계 구조의 기하학적 정렬, (2) 트랜스포머 내부에서의 함자 적용이라는 두 가지 핵심 요소로 분해됨을 보입니다. 이러한 메커니즘은 모델이 한 범주의 관계 구조를 다른 범주로 전이시켜 유추를 실현할 수 있게 합니다. 마지막으로, 우리는 이러한 효과들을 정량화하고 사전 학습된 대형 언어 모델(LLM)에서도 동일한 경향이 관찰됨을 확인합니다. 이를 통해 유추를 추상적인 인지적 개념에서 현대 신경망 내의 구체적이고 메커니즘에 기반한 현상으로 전환하고자 합니다.

Original Abstract

Analogy is a central faculty of human intelligence, enabling abstract patterns discovered in one domain to be applied to another. Despite its central role in cognition, the mechanisms by which Transformers acquire and implement analogical reasoning remain poorly understood. In this work, inspired by the notion of functors in category theory, we formalize analogical reasoning as the inference of correspondences between entities across categories. Based on this formulation, we introduce synthetic tasks that evaluate the emergence of analogical reasoning under controlled settings. We find that the emergence of analogical reasoning is highly sensitive to data characteristics, optimization choices, and model scale. Through mechanistic analysis, we show that analogical reasoning in Transformers decomposes into two key components: (1) geometric alignment of relational structure in the embedding space, and (2) the application of a functor within the Transformer. These mechanisms enable models to transfer relational structure from one category to another, realizing analogy. Finally, we quantify these effects and find that the same trends are observed in pretrained LLMs. In doing so, we move analogy from an abstract cognitive notion to a concrete, mechanistically grounded phenomenon in modern neural networks.

1 Citations
0 Influential
10 Altmetric
51.0 Score

AI Analysis

Korean Summary

이 논문은 트랜스포머 모델이 서로 다른 도메인 간의 구조적 유사성을 파악하는 '유추 추론(Analogical Reasoning)'을 어떻게 학습하고 수행하는지 기계론적으로 분석한 연구입니다. 저자들은 범주론(Category Theory)의 펑터(Functor) 개념을 도입하여 합성 데이터셋을 설계하였고, 실험을 통해 유추 추론 능력이 단순 암기나 구성적 추론 이후에 발현된다는 3단계 학습 과정을 발견했습니다. 핵심적으로 트랜스포머는 유추를 수행하기 위해 서로 다른 범주의 임베딩을 기하학적으로 정렬(Geometric Alignment)시키고, 펑터 토큰을 이용한 벡터 연산(덧셈)을 통해 타겟 개체를 예측한다는 메커니즘을 규명했습니다. 또한, 이러한 기하학적 정렬 현상이 실제 사전 학습된 LLM(Gemma, Llama)의 인컨텍스트 러닝 과정에서도 층(Layer)이 깊어짐에 따라 동일하게 나타남을 입증했습니다.

Key Innovations

  • 유추 추론을 범주론의 펑터(Functor) 매핑으로 공식화하여 합성 데이터셋 설계
  • 트랜스포머 학습 과정에서 암기 -> 구성적 추론 -> 유추 추론으로 이어지는 3단계 동역학 발견
  • 유추 추론의 핵심 메커니즘으로 '임베딩 공간의 기하학적 정렬(Dirichlet Energy 감소)'과 '벡터 덧셈 연산' 규명
  • 모델 크기 증가가 유추 성능 향상을 보장하지 않는 비단조적 스케일링(Inverse Scaling) 현상 관찰
  • 합성 데이터에서 발견한 메커니즘이 실제 LLM의 인컨텍스트 러닝(In-context Learning) 과정에서도 유효함을 입증

Learning & Inference Impact

학습 과정에서 유추 추론 능력은 데이터의 특성(개체 및 관계의 수)과 최적화 설정(Weight Decay 등)에 매우 민감하게 반응하며, 단순히 모델의 크기를 키우는 것만으로는 획득하기 어렵다는 것을 보여줍니다. 추론 과정에서는 모델이 도메인 간의 구조적 대응 관계를 파악하기 위해 임베딩 공간 내에서 개체들을 기하학적으로 정렬시킵니다. 이 정렬은 학습 단계(Steps)뿐만 아니라 LLM의 추론 단계(Layers)에서도 관찰되며, 이는 딥러닝 모델이 추상적인 유추를 수행할 때 '선형 표현 가설(Linear Representation Hypothesis)'에 따라 벡터 산술 연산($e_t \approx e_s + f$)을 활용함을 시사합니다. 이는 LLM의 추론 능력을 해석하고 제어하는 데 중요한 기계론적 기반을 제공합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!