전문성의 착시: 혼합 전문가 모델에서 발견되는 도메인 불변의 "상임 위원회"
The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models
혼합 전문가 모델은 희소 라우팅을 통해 도메인 전문성을 달성한다고 널리 알려져 있습니다. 본 연구에서는 COMMITTEEAUDIT라는 사후 분석 프레임워크를 도입하여 이 가정을 검증합니다. COMMITTEEAUDIT는 개별 전문가가 아닌 전문가 그룹 수준에서 라우팅 동작을 분석합니다. 세 가지 대표적인 모델과 MMLU 벤치마크를 사용하여, 우리는 도메인 불변의 "상임 위원회"를 발견했습니다. 상임 위원회는 라우팅되는 전문가들의 작은 집합으로, 아키텍처가 이미 공유 전문가를 포함하는 경우에도 불구하고, 도메인, 레이어, 라우팅 예산에 관계없이 지속적으로 대부분의 라우팅 트래픽을 처리합니다. 질적 분석 결과, 상임 위원회는 추론 구조와 구문을 고정하는 반면, 주변 전문가들은 도메인별 지식을 처리하는 것으로 나타났습니다. 이러한 결과는 혼합 전문가 모델에서 전문성이 일반적으로 생각되는 것보다 훨씬 덜 널리 퍼져 있다는 것을 시사하는 강력한 구조적 편향을 드러냅니다. 이러한 내재적인 편향은 또한 모델의 자연스러운 최적화 경로에 반하는 방식으로 작동할 수 있는 로드 밸런싱 손실과 같은 현재의 훈련 목표가 훈련 효율성과 성능을 제한할 수 있음을 나타냅니다.
Mixture of Experts models are widely assumed to achieve domain specialization through sparse routing. In this work, we question this assumption by introducing COMMITTEEAUDIT, a post hoc framework that analyzes routing behavior at the level of expert groups rather than individual experts. Across three representative models and the MMLU benchmark, we uncover a domain-invariant Standing Committee. This is a compact coalition of routed experts that consistently captures the majority of routing mass across domains, layers, and routing budgets, even when architectures already include shared experts. Qualitative analysis further shows that Standing Committees anchor reasoning structure and syntax, while peripheral experts handle domain-specific knowledge. These findings reveal a strong structural bias toward centralized computation, suggesting that specialization in Mixture of Experts models is far less pervasive than commonly believed. This inherent bias also indicates that current training objectives, such as load-balancing losses that enforce uniform expert utilization, may be working against the model's natural optimization path, thereby limiting training efficiency and performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.