2603.21276v1 Mar 22, 2026 cs.LG

데이터 이질성이 존재하는 환경에서 Mixture-of-Experts 기반 연합 학습을 위한 집계 정렬

Aggregation Alignment for Federated Learning with Mixture-of-Experts under Data Heterogeneity

Yiqin Deng
Yiqin Deng
Citations: 1,277
h-index: 21
Zheng Lin
Zheng Lin
Citations: 81
h-index: 6
Zihan Fang
Zihan Fang
Citations: 50
h-index: 3
Haonan An
Haonan An
Citations: 149
h-index: 6
Yuguang Fang
Yuguang Fang
Citations: 61
h-index: 6
Xianhao Chen
Xianhao Chen
Citations: 2,876
h-index: 30
Qianru Wang
Qianru Wang
Citations: 216
h-index: 9

대규모 언어 모델(LLM)은 모델 용량을 확장하면서 계산량을 줄이기 위해 점차적으로 Mixture-of-Experts(MoE) 아키텍처를 채택하고 있습니다. 이러한 MoE 기반 LLM을 미세 조정하려면 종종 분산되고 개인 정보 보호가 중요한 데이터에 접근해야 하므로, 중앙 집중식 미세 조정은 비현실적입니다. 따라서 연합 학습(FL)은 MoE 기반 LLM을 협업적으로 미세 조정하는 패러다임을 제공하며, 각 클라이언트는 데이터 개인 정보를 침해하지 않고 다양한 지식을 통합할 수 있습니다. 그러나 MoE 기반 LLM 미세 조정을 FL에 통합하는 것은 클라이언트 간의 내재적인 데이터 이질성으로 인해 발생하는 두 가지 중요한 집계 문제를 야기합니다. (i) 서로 다른 로컬 데이터 분포는 클라이언트가 특정 전문가 선택을 위한 고유한 게이팅 선호도를 개발하도록 유도하며, 이는 직접적인 매개변수 집계를 통해 '모두에게 맞는 하나의 크기'의 글로벌 게이팅 네트워크를 생성하게 됩니다. (ii) 동일 인덱스의 전문가들은 클라이언트 간에 서로 다른 의미론적 역할을 개발하여, 전문가의 의미론적 모호성을 초래하고 전문가의 전문성을 저하시킵니다. 이러한 문제점을 해결하기 위해, 본 논문에서는 라우팅 일관성과 전문가의 의미론적 정렬을 동시에 강화하는 연합 집계 정렬 프레임워크인 FedAlign-MoE를 제안합니다. 구체적으로, FedAlign-MoE는 일관성 가중치를 통해 라우팅 분포를 정렬하여 게이팅 동작을 집계하고, 분포 정규화를 통해 로컬 게이팅 네트워크를 최적화하여, 차별적인 로컬 선호도를 억제하지 않고 클라이언트 간의 안정성을 유지합니다. 동시에, FedAlign-MoE는 클라이언트 간의 동일 인덱스 전문가 간의 의미론적 일관성을 명시적으로 정량화하고, 의미론적으로 정렬된 클라이언트로부터 업데이트를 선택적으로 집계하여, 글로벌 전문가에게 안정적이고 전문적인 기능을 제공합니다. 광범위한 실험 결과는 FedAlign-MoE가 최첨단 벤치마크를 능가하며, 비-IID 연합 환경에서 더 빠른 수렴 속도와 우수한 정확도를 달성한다는 것을 보여줍니다.

Original Abstract

Large language models (LLMs) increasingly adopt Mixture-of-Experts (MoE) architectures to scale model capacity while reducing computation. Fine-tuning these MoE-based LLMs often requires access to distributed and privacy-sensitive data, making centralized fine-tuning impractical. Federated learning (FL) therefore provides a paradigm to collaboratively fine-tune MoE-based LLMs, enabling each client to integrate diverse knowledge without compromising data privacy. However, the integration of MoE-based LLM fine-tuning into FL encounters two critical aggregation challenges due to inherent data heterogeneity across clients: (i) divergent local data distributions drive clients to develop distinct gating preference for localized expert selection, causing direct parameter aggregation to produce a ``one-size-fits-none'' global gating network, and (ii) same-indexed experts develop disparate semantic roles across clients, leading to expert semantic blurring and the degradation of expert specialization. To address these challenges, we propose FedAlign-MoE, a federated aggregation alignment framework that jointly enforces routing consistency and expert semantic alignment. Specifically, FedAlign-MoE aggregates gating behaviors by aligning routing distributions through consistency weighting and optimizes local gating networks through distribution regularization, maintaining cross-client stability without overriding discriminative local preferences. Meanwhile, FedAlign-MoE explicitly quantifies semantic consistency among same-indexed experts across clients and selectively aggregates updates from semantically aligned clients, ensuring stable and specialized functional roles for global experts. Extensive experiments demonstrate that FedAlign-MoE outperforms state-of-the-art benchmarks, achieving faster convergence and superior accuracy in non-IID federated environments.

3 Citations
0 Influential
15 Altmetric
78.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!