2602.05805v1 Feb 05, 2026 cs.AI

NEX: 레이블 없는 생각의 사슬(Chain-of-Thought) 선택 및 모델 순위 지정을 위한 뉴런 탐색-활용 점수화

NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

Kang Chen
Kang Chen
Citations: 6
h-index: 2
Junjie Nian
Junjie Nian
Citations: 1
h-index: 1
Zhuoka Feng
Zhuoka Feng
Citations: 3
h-index: 1
Yixin Cao
Yixin Cao
Citations: 0
h-index: 0
Sihan Zhao
Sihan Zhao
Citations: 1
h-index: 1
Kai Xiong
Kai Xiong
Citations: 49
h-index: 3
Yaoning Wang
Yaoning Wang
Citations: 31
h-index: 3
Changyi Xiao
Changyi Xiao
Citations: 29
h-index: 3

대규모 언어 모델은 추론 연산 자원을 다수의 생각의 사슬(Chain-of-Thought) 흔적을 샘플링하거나 병합된 체크포인트를 탐색하는 데 점점 더 많이 할애하고 있습니다. 이는 병목 현상을 생성에서 선택으로 이동시키며, 종종 목표 분포에 대한 지도(supervision) 없이 수행됩니다. 우리는 엔트로피 기반의 탐색 대리 지표가 정확도와 역 U자형 관계를 보임을 입증하였는데, 이는 추가적인 탐색이 불필요해질 수 있고 '과도한 생각(overthinking)'을 유발할 수 있음을 시사합니다. 이에 우리는 추론 과정을 E-단계(탐색)와 X-단계(활용)가 교차하는 과정으로 보는 화이트박스 비지도 무-레이블 점수화 프레임워크인 NEX를 제안합니다. NEX는 희소 활성화 캐시를 통해 토큰당 새롭게 활성화된 MLP 뉴런의 급증 현상으로 E-단계를 감지한 후, 고정적(sticky) 2상태 은닉 마르코프 모델(HMM)을 사용하여 E-X 단계를 추론하고, E-단계에서 도입된 뉴런이 이어지는 X 구간에서 재사용되는지에 따라 점수를 부여합니다. 이러한 신호는 해석 가능한 뉴런 가중치와 단일 'Good-Mass Fraction' 점수를 산출하여, 정답 없이도 후보 응답과 병합된 모델 변형들의 순위를 매길 수 있게 합니다. 추론 벤치마크와 Qwen3 병합 모델군에 걸쳐 소규모의 레이블 없는 활성화 데이터셋에서 계산된 NEX는 다운스트림 정확도를 예측하고 더 우수한 변형을 식별합니다. 또한 우리는 인간 주석을 통해 E-X 신호를 검증하고, '효과적 vs 불필요한' 뉴런 전이를 통해 인과적 증거를 제시합니다.

Original Abstract

Large language models increasingly spend inference compute sampling multiple chain-of-thought traces or searching over merged checkpoints. This shifts the bottleneck from generation to selection, often without supervision on the target distribution. We show entropy-based exploration proxies follow an inverted-U with accuracy, suggesting extra exploration can become redundant and induce overthinking. We propose NEX, a white-box label-free unsupervised scoring framework that views reasoning as alternating E-phase (exploration) and X-phase (exploitation). NEX detects E-phase as spikes in newly activated MLP neurons per token from sparse activation caches, then uses a sticky two-state HMM to infer E-X phases and credits E-introduced neurons by whether they are reused in the following X span. These signals yield interpretable neuron weights and a single Good-Mass Fraction score to rank candidate responses and merged variants without task answers. Across reasoning benchmarks and Qwen3 merge families, NEX computed on a small unlabeled activation set predicts downstream accuracy and identifies better variants; we further validate the E-X signal with human annotations and provide causal evidence via "Effective-vs-Redundant" neuron transfer.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!