2601.06002v2 Jan 09, 2026 cs.CL

사고의 분자 구조: 장기 연쇄적 사고의 위상 지도를 통해

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Jiaheng Liu
Jiaheng Liu
Citations: 702
h-index: 15
Minghao Liu
Minghao Liu
Citations: 223
h-index: 8
Qiguang Chen
Qiguang Chen
SCIR
Citations: 1,473
h-index: 21
Yantao Du
Yantao Du
Citations: 5
h-index: 2
Ziniu Li
Ziniu Li
Citations: 78
h-index: 4
Jinhao Liu
Jinhao Liu
Citations: 330
h-index: 5
Songyao Duan
Songyao Duan
Citations: 0
h-index: 0
Jia-Yu Guo
Jia-Yu Guo
Citations: 1
h-index: 1
Tong Yang
Tong Yang
Citations: 23
h-index: 2
Ge Zhang
Ge Zhang
Citations: 44
h-index: 2
Libo Qin
Libo Qin
Citations: 532
h-index: 8
Wanxiang Che
Wanxiang Che
Citations: 1,063
h-index: 16
Wenhao Huang
Wenhao Huang
Citations: 305
h-index: 7

대규모 언어 모델(LLM)은 종종 인간 또는 장기 연쇄적 사고(Long CoT)를 사용하지 않는 LLM의 모방을 통해 효과적인 장기 연쇄적 사고 능력을 학습하는 데 어려움을 겪습니다. 이를 이해하기 위해, 효과적이고 학습 가능한 장기 연쇄적 사고 경로가 통합된 관점에서 안정적인 분자 구조를 특징으로 하며, 이 구조는 세 가지 상호작용 유형에 의해 형성된다고 제안합니다. 깊이 있는 추론(covalent-like), 자기 성찰(hydrogen-bond-like), 그리고 자기 탐색(van der Waals-like)이 바로 그것입니다. 정제된 경로 분석 결과, 이러한 구조는 키워드 모방이 아닌 장기 연쇄적 사고 미세 조정 과정을 통해 나타나는 것을 확인했습니다. 우리는 효과적인 의미 이성질체를 소개하고, 빠른 엔트로피 수렴을 촉진하는 결합만이 안정적인 장기 연쇄적 사고 학습을 지원하며, 구조적 경쟁은 학습을 저해한다는 것을 보여줍니다. 이러한 연구 결과를 바탕으로, 효과적인 장기 연쇄적 사고 구조의 합성을 안내하는 분포 전이 그래프 방법인 Mole-Syn을 제시합니다. Mole-Syn은 다양한 벤치마크에서 성능과 강화 학습 안정성을 향상시키는 데 기여합니다.

Original Abstract

Large language models (LLMs) often fail to learn effective long chain-of-thought (Long CoT) reasoning from human or non-Long-CoT LLMs imitation. To understand this, we propose that effective and learnable Long CoT trajectories feature stable molecular-like structures in unified view, which are formed by three interaction types: Deep-Reasoning (covalent-like), Self-Reflection (hydrogen-bond-like), and Self-Exploration (van der Waals-like). Analysis of distilled trajectories reveals these structures emerge from Long CoT fine-tuning, not keyword imitation. We introduce Effective Semantic Isomers and show that only bonds promoting fast entropy convergence support stable Long CoT learning, while structural competition impairs training. Drawing on these findings, we present Mole-Syn, a distribution-transfer-graph method that guides synthesis of effective Long CoT structures, boosting performance and RL stability across benchmarks.

0 Citations
0 Influential
10.5 Altmetric
52.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!