2602.05805v1 Feb 05, 2026 cs.AI

NEX: 레이블 없는 생각의 사슬(Chain-of-Thought) 선택 및 모델 순위 지정을 위한 뉴런 탐색-활용 점수화

NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

Kang Chen
Kang Chen
Citations: 8
h-index: 2
Junjie Nian
Junjie Nian
Citations: 1
h-index: 1
Zhuoka Feng
Zhuoka Feng
Citations: 4
h-index: 1
Yixin Cao
Yixin Cao
Citations: 0
h-index: 0
Sihan Zhao
Sihan Zhao
Citations: 1
h-index: 1
Kai Xiong
Kai Xiong
Citations: 65
h-index: 4
Yaoning Wang
Yaoning Wang
Citations: 33
h-index: 3
Changyi Xiao
Changyi Xiao
Citations: 33
h-index: 3

대규모 언어 모델은 추론 연산 자원을 다수의 생각의 사슬(Chain-of-Thought) 흔적을 샘플링하거나 병합된 체크포인트를 탐색하는 데 점점 더 많이 할애하고 있습니다. 이는 병목 현상을 생성에서 선택으로 이동시키며, 종종 목표 분포에 대한 지도(supervision) 없이 수행됩니다. 우리는 엔트로피 기반의 탐색 대리 지표가 정확도와 역 U자형 관계를 보임을 입증하였는데, 이는 추가적인 탐색이 불필요해질 수 있고 '과도한 생각(overthinking)'을 유발할 수 있음을 시사합니다. 이에 우리는 추론 과정을 E-단계(탐색)와 X-단계(활용)가 교차하는 과정으로 보는 화이트박스 비지도 무-레이블 점수화 프레임워크인 NEX를 제안합니다. NEX는 희소 활성화 캐시를 통해 토큰당 새롭게 활성화된 MLP 뉴런의 급증 현상으로 E-단계를 감지한 후, 고정적(sticky) 2상태 은닉 마르코프 모델(HMM)을 사용하여 E-X 단계를 추론하고, E-단계에서 도입된 뉴런이 이어지는 X 구간에서 재사용되는지에 따라 점수를 부여합니다. 이러한 신호는 해석 가능한 뉴런 가중치와 단일 'Good-Mass Fraction' 점수를 산출하여, 정답 없이도 후보 응답과 병합된 모델 변형들의 순위를 매길 수 있게 합니다. 추론 벤치마크와 Qwen3 병합 모델군에 걸쳐 소규모의 레이블 없는 활성화 데이터셋에서 계산된 NEX는 다운스트림 정확도를 예측하고 더 우수한 변형을 식별합니다. 또한 우리는 인간 주석을 통해 E-X 신호를 검증하고, '효과적 vs 불필요한' 뉴런 전이를 통해 인과적 증거를 제시합니다.

Original Abstract

Large language models increasingly spend inference compute sampling multiple chain-of-thought traces or searching over merged checkpoints. This shifts the bottleneck from generation to selection, often without supervision on the target distribution. We show entropy-based exploration proxies follow an inverted-U with accuracy, suggesting extra exploration can become redundant and induce overthinking. We propose NEX, a white-box label-free unsupervised scoring framework that views reasoning as alternating E-phase (exploration) and X-phase (exploitation). NEX detects E-phase as spikes in newly activated MLP neurons per token from sparse activation caches, then uses a sticky two-state HMM to infer E-X phases and credits E-introduced neurons by whether they are reused in the following X span. These signals yield interpretable neuron weights and a single Good-Mass Fraction score to rank candidate responses and merged variants without task answers. Across reasoning benchmarks and Qwen3 merge families, NEX computed on a small unlabeled activation set predicts downstream accuracy and identifies better variants; we further validate the E-X signal with human annotations and provide causal evidence via "Effective-vs-Redundant" neuron transfer.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!