MAR: 모듈 인식 아키텍처 정제를 통한 효율적인 대규모 언어 모델
MAR: Efficient Large Language Models via Module-aware Architecture Refinement
대규모 언어 모델(LLM)은 다양한 도메인에서 뛰어난 성능을 보이지만, 이차 복잡도의 어텐션(quadratic attention)과 밀집 피드포워드 네트워크(FFN) 연산으로 인한 높은 에너지 비용 문제를 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 선형 시간 시퀀스 모델링을 위한 상태 공간 모델(SSM)을 통합하고 FFN 비용을 줄이기 위해 활성화 희소화(activation sparsification)를 적용하는 2단계 프레임워크인 MAR(Module-aware Architecture Refinement)을 제안합니다. 또한, 스파이킹 신경망(SNN)을 SSM과 통합할 때 발생하는 낮은 정보 밀도와 시간적 불일치 문제를 완화하기 위해, 적응형 3진 다중 단계 뉴런(ATMN)과 스파이크 인식 양방향 증류 전략(SBDS)을 설계했습니다. 광범위한 실험을 통해 MAR이 추론 에너지 소비를 상당히 줄이면서도 제한된 자원 하에서 기존 밀집 모델의 성능을 효과적으로 회복함을 입증했습니다. 더 나아가, MAR은 비슷하거나 더 큰 규모의 효율적 모델들의 성능을 능가하며, 효율적이고 실용적인 LLM 구축을 위한 잠재력을 보여줍니다.
Large Language Models (LLMs) excel across diverse domains but suffer from high energy costs due to quadratic attention and dense Feed-Forward Network (FFN) operations. To address these issues, we propose Module-aware Architecture Refinement (MAR), a two-stage framework that integrates State Space Models (SSMs) for linear-time sequence modeling and applies activation sparsification to reduce FFN costs. In addition, to mitigate low information density and temporal mismatch in integrating Spiking Neural Networks (SNNs) with SSMs, we design the Adaptive Ternary Multi-step Neuron (ATMN) and the Spike-aware Bidirectional Distillation Strategy (SBDS). Extensive experiments demonstrate that MAR effectively restores the performance of its dense counterpart under constrained resources while substantially reducing inference energy consumption. Furthermore, it outperforms efficient models of comparable or even larger scale, underscoring its potential for building efficient and practical LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.