2603.02633v1 Mar 03, 2026 cs.LG

이론적 일반화 보장을 갖는 앙상블 전문가 모델을 위한 강력한 이종 아날로그-디지털 컴퓨팅

Robust Heterogeneous Analog-Digital Computing for Mixture-of-Experts Models with Theoretical Generalization Guarantees

Mohammed Nowaz Rabbani Chowdhury
Mohammed Nowaz Rabbani Chowdhury
Citations: 70
h-index: 2
H. Tsai
H. Tsai
Citations: 2,232
h-index: 18
G. W. Burr
G. W. Burr
Citations: 55
h-index: 3
K. E. Maghraoui
K. E. Maghraoui
Citations: 1,488
h-index: 18
Liu Liu
Liu Liu
Citations: 3
h-index: 1
Meng Wang
Meng Wang
Citations: 39
h-index: 2

희소 앙상블 전문가(MoE) 모델은 입력당 일부 전문가만 활성화하여 효율적인 확장성을 제공하지만, 막대한 파라미터 수로 인해 추론 과정에서 상당한 메모리 및 에너지 비효율성을 초래합니다. 아날로그 메모리 내 컴퓨팅(AIMC)은 빈번한 메모리와 연산 장치 간의 데이터 이동을 없앰으로써 유망한 해결책을 제시합니다. 그러나 AIMC의 하드웨어 비이상 현상을 완화하는 데는 일반적으로 노이즈에 대한 인식적인 재학습이 필요하며, 이는 대규모 MoE 모델의 경우 실현 불가능합니다. 본 논문에서는 재학습 없이 작동하는 이종 컴퓨팅 프레임워크를 제안합니다. 이 프레임워크에서, 최대 뉴런 정규화 값으로 증명적으로 식별 가능한 노이즈에 민감한 전문가들은 디지털 방식으로 연산되는 반면, 대부분의 전문가들은 AIMC 하드웨어에서 실행됩니다. 또한, 어텐션 레이어와 같이 밀집적으로 활성화되는 모듈은 파라미터의 작은 비율을 차지하지만, 높은 노이즈 민감성으로 인해 디지털 연산에 할당됩니다. DeepSeekMoE 및 OLMoE를 포함한 대규모 MoE 언어 모델에 대한 광범위한 실험 결과, 제안하는 방법이 다양한 벤치마크 작업에서 아날로그 비이상 현하에서도 정확도를 유지하는 데 있어 견고함을 입증했습니다.

Original Abstract

Sparse Mixture-of-Experts (MoE) models enable efficient scalability by activating only a small sub-set of experts per input, yet their massive parameter counts lead to substantial memory and energy inefficiency during inference. Analog in-memory computing (AIMC) offers a promising solution by eliminating frequent data movement between memory and compute units. However, mitigating hardware nonidealities of AIMC typically requires noise-aware retraining, which is infeasible for large MoE models. In this paper, we propose a retraining-free heterogeneous computation framework in which noise-sensitive experts, which are provably identifiable by their maximum neuron norm, are computed digitally while the majority of the experts are executed on AIMC hardware. We further assign densely activated modules, such as attention layers, to digital computation due to their high noise sensitivity despite comprising a small fraction of parameters. Extensive experiments on large MoE language models, including DeepSeekMoE and OLMoE, across multiple benchmark tasks validate the robustness of our approach in maintaining accuracy under analog nonidealities.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!