SD-MoE: 효과적인 전문가 특화 설계를 위한 스펙트럼 분해
SD-MoE: Spectral Decomposition for Effective Expert Specialization
혼합 전문가(MoE) 아키텍처는 조건부 계산을 통해 전문가 특화 현상을 유도하여 대규모 언어 모델의 확장성을 높입니다. 그러나 실제로는 전문가 특화가 제대로 이루어지지 않는 경우가 많습니다. 일부 전문가들은 기능적으로 유사해지고, 다른 전문가들은 사실상 공유 전문가처럼 작동하여 모델의 효과적인 용량과 성능을 제한합니다. 본 연구에서는 파라미터 및 기울기 공간의 스펙트럼 관점에서 분석을 수행하여 다음과 같은 사실을 밝혀냈습니다. (1) 전문가들은 파라미터에서 높은 중복성을 가지는 주요 스펙트럼 성분을 공유합니다. (2) 주요 기울기 부분 공간은 전문가 간에 강하게 정렬되어 있으며, 이는 인간 코퍼스에 존재하는 보편적인 저차원 구조에 의해 주도됩니다. (3) 게이팅 메커니즘은 입력 데이터를 이러한 주요 방향으로 우선적으로 라우팅하여 특화를 더욱 제한합니다. 이러한 문제를 해결하기 위해, 파라미터와 기울기를 모두 스펙트럼 공간에서 분해하는 Spectral-Decoupled MoE (SD-MoE)를 제안합니다. SD-MoE는 다양한 하위 작업에서 성능을 향상시키고, 효과적인 전문가 특화를 가능하게 하며, 추가적인 계산 비용을 최소화합니다. 또한, Qwen 및 DeepSeek를 포함한 다양한 기존 MoE 아키텍처에 원활하게 통합될 수 있습니다.
Mixture-of-Experts (MoE) architectures scale Large Language Models via expert specialization induced by conditional computation. In practice, however, expert specialization often fails: some experts become functionally similar, while others functioning as de facto shared experts, limiting the effective capacity and model performance. In this work, we analysis from a spectral perspective on parameter and gradient spaces, uncover that (1) experts share highly overlapping dominant spectral components in their parameters, (2) dominant gradient subspaces are strongly aligned across experts, driven by ubiquitous low-rank structure in human corpus, and (3) gating mechanisms preferentially route inputs along these dominant directions, further limiting specialization. To address this, we propose Spectral-Decoupled MoE (SD-MoE), which decomposes both parameter and gradient in the spectral space. SD-MoE improves performance across downstream tasks, enables effective expert specialization, incurring minimal additional computation, and can be seamlessly integrated into a wide range of existing MoE architectures, including Qwen and DeepSeek.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.