사전 학습 해체하기: MoE 및 밀집 모델에서의 지식 기여도 분석
Deconstructing Pre-training: Knowledge Attribution Analysis in MoE and Dense Models
전문가 혼합(MoE) 아키텍처는 모델 용량과 토큰당 연산량을 분리하여, 밀집(dense) 모델의 확장 법칙이 부과하는 연산 한계를 뛰어넘는 확장을 가능하게 합니다. 그러나 사전 학습 중 MoE 아키텍처가 지식 습득을 어떻게 형성하는지, 그리고 이 과정이 밀집 아키텍처와 어떻게 다른지는 여전히 미지의 영역입니다. 이 문제를 해결하기 위해, 우리는 로그 확률 증가분을 뉴런 전반에 걸쳐 분해하는 뉴런 수준의 기여도 지표인 Gated-LPI(Log-Probability Increase)를 소개합니다. 우리는 각각 120만 학습 단계(약 5.0조 토큰)와 60만 학습 단계(약 2.5조 토큰)에 걸쳐 체크포인트를 추적하며, MoE와 밀집 아키텍처의 지식 습득 역학에 대한 시간 분해 비교를 제시합니다. 우리의 실험은 세 가지 패턴을 밝혀냈습니다. (1) 저엔트로피 백본. 상위 약 1%의 MoE 뉴런이 긍정적 업데이트의 45% 이상을 포착하여 고효율 코어를 형성하는데, 이는 밀집 기준 모델에서는 나타나지 않는 현상입니다. (2) 조기 공고화. MoE 모델은 10만 단계 이내에 안정적인 중요도 프로필을 확립하는 반면, 밀집 모델은 학습 내내 변동성이 큽니다. (3) 기능적 견고성. 가장 중요한 10개의 MoE 어텐션 헤드를 마스킹했을 때 관계적 HIT@10이 10% 미만으로 감소한 반면, 밀집 모델은 50% 이상 감소했습니다. 이는 희소성이 취약한 형태가 아닌 분산된 형태의 지식 저장을 촉진함을 보여줍니다. 이러한 패턴들은 희소성이 학습 초기부터 내재적으로 안정적이고 분산된 연산 백본을 조성하여, 희소 아키텍처와 학습 시간 해석 가능성 사이의 격차를 해소하는 데 도움을 준다는 것을 종합적으로 입증합니다.
Mixture-of-Experts (MoE) architectures decouple model capacity from per-token computation, enabling scaling beyond the computational limits imposed by dense scaling laws. Yet how MoE architectures shape knowledge acquisition during pre-training, and how this process differs from dense architectures, remains unknown. To address this issue, we introduce Gated-LPI (Log-Probability Increase), a neuron-level attribution metric that decomposes log-probability increase across neurons. We present a time-resolved comparison of knowledge acquisition dynamics in MoE and dense architectures, tracking checkpoints over 1.2M training steps (~ 5.0T tokens) and 600K training steps (~ 2.5T tokens), respectively. Our experiments uncover three patterns: (1) Low-entropy backbone. The top approximately 1% of MoE neurons capture over 45% of positive updates, forming a high-utility core, which is absent in the dense baseline. (2) Early consolidation. The MoE model locks into a stable importance profile within < 100K steps, whereas the dense model remains volatile throughout training. (3) Functional robustness. Masking the ten most important MoE attention heads reduces relational HIT@10 by < 10%, compared with > 50% for the dense model, showing that sparsity fosters distributed -- rather than brittle -- knowledge storage. These patterns collectively demonstrate that sparsity fosters an intrinsically stable and distributed computational backbone from early in training, helping bridge the gap between sparse architectures and training-time interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.