SliceGraph: 다중 실행 연쇄적 사고 과정의 이성질체 매핑
SliceGraph: Mapping Process Isomers in Multi-Run Chain-of-Thought Reasoning
다중 실행 연쇄적 사고 과정은 일반적으로 최종 답변의 집계로 축소되어, 다양한 실행 경로가 중간 계산 단계를 통해 어떻게 공유되고 분기되며 다시 합쳐지는지를 간과합니다. 본 연구에서는 CoT(Chain-of-Thought) 단편 간의 희소 활성화-키 자카드 유사성을 기반으로 상호 k-최근접 이웃(mutual-kNN)을 사용하여 문제-모델-셀 그래프를 구축하는 후처리 방식인 SliceGraph를 제안합니다. SliceGraph는 디코딩 프로그램이 아닌, 과정의 기하학적 구조를 측정하는 객체로 간주됩니다. 수학 및 과학 벤치마크에서 사용된 세 가지 주요 4B/8B 모델의 CoT 앙상블을 대상으로, 검토 결과 SliceGraph의 이중 연결 구성 요소는 공유된 사고 상태 단위를 나타내며, 과정 패밀리는 패밀리 내에서 전략적으로 일관된 경로 단위를 나타냅니다. 954개의 문제-모델 셀 중 85.5%에서 동일한 정규화된 답변을 공유하는 올바른 CoT가 여러 과정 패밀리로 분기됩니다. 또한, 최소 두 개의 실행 경로를 가진 셀에서, 평균적으로 76.6%의 실행 경로 쌍이 서로 다른 패밀리에 속합니다. 이러한 동일한 답변을 가지면서도 패밀리가 다른 올바른 실행 경로를 과정 이성질체라고 부릅니다. 라벨 기반 보상 필드는 별도의 값 지형 계층을 제공하며, 성공과 관련된 영역은 종종 분리된 고가치 코어로 나뉘며, 경로 패밀리는 이러한 핵심 영역의 영향을 받아 단순한 복제를 넘어 전문화됩니다. 유형화된 상태 전이 분석을 통해, 과정 패밀리는 동일한 아틀라스를 탐색하며, 통제된 조건 하에서 서로 다른 전이 커널을 사용합니다. 또한, 표현 제거 실험, 다양한 아키텍처에서의 재현 실험, 그리고 두 가지 다른 규모에서의 재현 실험은 경로 패밀리 구조의 견고성을 뒷받침하며, 최종 답변 집계 방식이 이러한 구조화된 다중 경로 과정의 기하학적 구조를 간과한다는 것을 보여줍니다.
Multi-run chain-of-thought reasoning is usually collapsed to final-answer aggregates, which discard howsampled trajectories share, split, and rejoin through intermediate computation. We propose SliceGraph, a post-hoc problem-model-cell graph built by mutual-kNN over sparse activation-key Jaccard similarity between CoT slices, and treat it as a measurement object for process geometry rather than as a decoding program. Across sampled CoT ensembles from three primary 4B/8B models on math and science benchmarks, blinded annotation supports SliceGraph biconnected components as shared reasoning-state units and process families as within-family strategy-coherent route units. In 85.5% of 954 problem-model cells, correct CoTs sharing the same normalized answer split into multiple process families; among cells with at least two such runs, 76.6% of run pairs are cross-family on average. We call such same-answer, family-divergent correct trajectories process isomers. A label-seeded reward field provides a separate value-landscape layer: success-associated regions often split into disconnected high-value cores, and route families specialize over these core footprints rather than merely duplicating one another. A typed-state transition analysis further shows that process families navigate the same atlas with distinct transition kernels under matched null controls. Representation ablations, a cross-architecture replication, and two cross-scale replications support the robustness of the route-family scaffold, showing that final-answer aggregation overlooks this structured multi-route process geometry.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.