다국어 MoE 모델에서 해석 가능한 하위 네트워크 적응을 위한 언어 라우팅 격리 현상 분석
Unveiling Language Routing Isolation in Multilingual MoE Models for Interpretable Subnetwork Adaptation
혼합 전문가(MoE) 모델은 언어별로 현저한 성능 차이를 보이지만, 이러한 차이를 유발하는 내부 메커니즘은 제대로 이해되지 않고 있습니다. 본 연구에서는 MoE 모델의 전문가 라우팅 패턴을 체계적으로 분석하여, 고자원 언어와 저자원 언어가 주로 서로 다른 전문가 집합을 활성화하는 '언어 라우팅 격리'라는 현상을 밝혀냈습니다. 또한, 계층별 분석을 통해 라우팅 패턴이 모델 깊이에 따라 계층별로 수렴 및 발산하는 경향을 보이는 것을 확인했습니다. 이러한 결과를 바탕으로, 라우팅 격리를 활용하여 언어별 전문가 하위 네트워크를 식별하고 적응시키는 프레임워크인 RISE(Routing Isolation-guided Subnetwork Enhancement)를 제안합니다. RISE는 특이성 점수를 사용하여 얕은 및 깊은 계층에서 언어별 전문가를 식별하고, 겹침 점수를 사용하여 중간 계층에서 범용 전문가를 선택하는 3단계 선택 전략을 적용합니다. RISE는 선택된 하위 네트워크만 학습하고 나머지 파라미터는 고정함으로써, 저자원 언어의 성능을 크게 향상시키면서 다른 언어의 기능은 유지합니다. 10개 언어에 대한 실험 결과, RISE는 목표 언어에 대해 최대 10.85%의 F1 점수 향상을 달성했으며, 다른 언어에 대한 성능 저하는 최소화했습니다.
Mixture-of-Experts (MoE) models exhibit striking performance disparities across languages, yet the internal mechanisms driving these gaps remain poorly understood. In this work, we conduct a systematic analysis of expert routing patterns in MoE models, revealing a phenomenon we term Language Routing Isolation, in which high- and low-resource languages tend to activate largely disjoint expert sets. Through layer-stratified analysis, we further show that routing patterns exhibit a layer-wise convergence-divergence pattern across model depth. Building on these findings, we propose RISE (Routing Isolation-guided Subnetwork Enhancement), a framework that exploits routing isolation to identify and adapt language-specific expert subnetworks. RISE applies a tripartite selection strategy, using specificity scores to identify language-specific experts in shallow and deep layers and overlap scores to select universal experts in middle layers. By training only the selected subnetwork while freezing all other parameters, RISE substantially improves low-resource language performance while preserving capabilities in other languages. Experiments on 10 languages demonstrate that RISE achieves target-language F1 gains of up to 10.85% with minimal cross-lingual degradation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.