2602.01990v1 Feb 02, 2026 cs.LG

SAME: 다중 모드 지속적 지시 튜닝을 위한 안정화된 전문가 혼합 모델

SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning

Zhen Xie
Zhen Xie
Citations: 22
h-index: 1
De-Chuan Zhan
De-Chuan Zhan
Citations: 473
h-index: 10
Han-Jia Ye
Han-Jia Ye
Citations: 5,536
h-index: 35
Junshu Tang
Junshu Tang
Citations: 95
h-index: 4
Yu Shi
Yu Shi
Citations: 6
h-index: 1
Da-Wei Zhou
Da-Wei Zhou
Citations: 3,124
h-index: 21

다중 모드 대규모 언어 모델(MLLM)은 지시 튜닝을 통해 강력한 성능을 보이지만, 실제 환경에서의 활용을 위해서는 지속적으로 기능을 확장해야 하며, 이를 위해 다중 모드 지속적 지시 튜닝(MCIT)이 필수적입니다. 최근 연구에서는 희소 전문가 라우팅을 활용하여 작업 전문화를 촉진하지만, 데이터 분포가 변화함에 따라 전문가 라우팅 과정에서 문제가 발생합니다. 예를 들어, 이전에 특정 위치 정보를 활성화했던 전문가가 OCR 작업 학습 후에는 관련 없는 전문가로 라우팅될 수 있습니다. 동시에, 위치 정보와 관련된 전문가들은 새로운 작업에 의해 덮어씌워져 원래의 기능을 잃을 수 있습니다. 이러한 현상은 두 가지 문제점을 반영합니다. 첫째, 전문가 선택의 일관성이 시간 경과에 따라 달라지는 '라우터 드리프트'입니다. 둘째, 공유 전문가들이 여러 작업에 의해 덮어씌워지는 '전문가 드리프트'입니다. 따라서, 본 연구에서는 MCIT를 위한 '안정화된 전문가 혼합 모델(SAME)'을 제안합니다. 라우터 드리프트를 해결하기 위해, SAME은 라우팅 동역학을 직교 부분 공간으로 분해하고 작업과 관련된 방향만 업데이트하여 전문가 선택을 안정화합니다. 전문가 드리프트를 완화하기 위해, 과거 입력 데이터의 공분산을 활용하여 곡률을 고려한 스케일링을 통해 전문가 업데이트를 조절하며, 별도의 재학습 없이 적용합니다. 또한, SAME은 선택된 전문가를 학습 중에 고정하는 적응적 전문가 활성화를 도입하여 불필요한 계산을 줄이고 작업 간 간섭을 최소화합니다. 광범위한 실험 결과, SAME은 최고 수준의 성능을 달성함을 보여줍니다.

Original Abstract

Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, but real-world deployment requires them to continually expand their capabilities, making Multimodal Continual Instruction Tuning (MCIT) essential. Recent methods leverage sparse expert routing to promote task specialization, but we find that the expert routing process suffers from drift as the data distribution evolves. For example, a grounding query that previously activated localization experts may instead be routed to irrelevant experts after learning OCR tasks. Meanwhile, the grounding-related experts can be overwritten by new tasks and lose their original functionality. Such failure reflects two problems: router drift, where expert selection becomes inconsistent over time, and expert drift, where shared experts are overwritten across tasks. Therefore, we propose StAbilized Mixture-of-Experts (SAME) for MCIT. To address router drift, SAME stabilizes expert selection by decomposing routing dynamics into orthogonal subspaces and updating only task-relevant directions. To mitigate expert drift, we regulate expert updates via curvature-aware scaling using historical input covariance in a rehearsal-free manner. SAME also introduces adaptive expert activation to freeze selected experts during training, reducing redundant computation and cross-task interference. Extensive experiments demonstrate its SOTA performance.

0 Citations
0 Influential
17.5 Altmetric
87.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!