SAMoRA: 의미 기반 전문가 혼합 모델을 활용한 작업 적응형 학습
SAMoRA: Semantic-Aware Mixture of LoRA Experts for Task-Adaptive Learning
혼합 전문가(MoE) 모델과 저랭크 적응(LoRA) 기술의 결합은 대규모 언어 모델의 다중 작업 학습 능력을 향상시키는 데 상당한 잠재력을 보여주었습니다. 그러나 기존 방법은 다음과 같은 두 가지 주요 과제를 안고 있습니다. (1) 현재 MoE-LoRA 방법의 부정확한 라우팅은 입력 의미와 전문가 역량 간의 명시적인 매칭이 이루어지지 않아 전문가의 특수화가 미흡합니다. (2) 균일한 가중치 융합 전략은 다양한 작업의 복잡성을 고려하지 못하고 적응적인 업데이트 강도를 제공하는 데 어려움을 겪습니다. 이러한 한계점을 해결하기 위해, 본 논문에서는 작업 적응형 학습을 위한 새로운 파라미터 효율적인 미세 조정 프레임워크인 SAMoRA(Semantic-Aware Mixture of LoRA Experts)를 제안합니다. 구체적으로, 텍스트 의미를 가장 적합한 전문가와 명시적으로 연결하여 정확한 라우팅을 가능하게 하는 의미 기반 라우터를 제안합니다. 또한, 특정 작업 요구 사항에 따라 전문가의 기여도를 동적으로 조절하는 작업 적응형 스케일링 메커니즘을 설계했습니다. 더불어, 전문가의 특수화와 효과적인 스케일링을 동시에 촉진하는 새로운 정규화 목표를 제안합니다. 여러 다중 작업 벤치마크에서 수행된 광범위한 실험 결과, SAMoRA는 최첨단 방법보다 훨씬 우수한 성능을 보이며 뛰어난 작업 일반화 능력을 갖춘 것으로 나타났습니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/boyan-code/SAMoRA
The combination of Mixture-of-Experts (MoE) and Low-Rank Adaptation (LoRA) has shown significant potential for enhancing the multi-task learning capabilities of Large Language Models. However, existing methods face two primary challenges: (1)Imprecise Routing in the current MoE-LoRA method fails to explicitly match input semantics with expert capabilities, leading to weak expert specialization. (2)Uniform weight fusion strategies struggle to provide adaptive update strengths, overlooking the varying complexity of different tasks. To address these limitations, we propose SAMoRA (Semantic-Aware Mixture of LoRA Experts), a novel parameter-efficient fine-tuning framework tailored for task-adaptive learning. Specifically, A Semantic-Aware Router is proposed to explicitly align textual semantics with the most suitable experts for precise routing. A Task-Adaptive Scaling mechanism is designed to regulate expert contributions based on specific task requirements dynamically. In addition, a novel regularization objective is proposed to jointly promote expert specialization and effective scaling. Extensive experiments on multiple multi-task benchmarks demonstrate that SAMoRA significantly outperforms the state-of-the-art methods and holds excellent task generalization capabilities. Code is available at https://github.com/boyan-code/SAMoRA
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.