2604.14016v1 Apr 15, 2026 cs.LG

MAny: 다중 모드 모델의 지속적인 지시 조정(Instruction Tuning)을 위한 모든 것을 통합하는 방법

MAny: Merge Anything for Multimodal Continual Instruction Tuning

Zijian Gao
Zijian Gao
Citations: 371
h-index: 10
Wangwang Jia
Wangwang Jia
Citations: 110
h-index: 3
Peng Qian
Peng Qian
Citations: 16
h-index: 2
Bo Ding
Bo Ding
Citations: 180
h-index: 7
Yong Dou
Yong Dou
Citations: 55
h-index: 3
Huaimin Wang
Huaimin Wang
Citations: 335
h-index: 10
Ke Xu
Ke Xu
Citations: 16
h-index: 2
Xingxing Zhang
Xingxing Zhang
Citations: 40
h-index: 4
Tao Sun
Tao Sun
Citations: 13
h-index: 2

다중 모드 대규모 언어 모델(MLLM)의 순차적인 작업 적응을 위한 다중 모드 지속적인 지시 조정(MCIT)은 필수적이지만, 파국적인 망각(catastrophic forgetting)으로 인해 심각하게 제약됩니다. 기존 연구는 주로 추론 언어 모델의 핵심 부분에 초점을 맞추고 있지만, 본 연구에서는 교차 모드 투영 공간에서의 인식 드리프트(perception drift)와 저랭크 파라미터 공간에서의 추론 붕괴(reasoning collapse)라는 중요한, 그러나 간과된 이중 망각 현상을 밝혀냅니다. 이를 해결하기 위해, 우리는 extbf{MAny} ( extbf{M}erge extbf{Any}thing, 모든 것을 통합하는 방법)라는 프레임워크를 제안합니다. MAny는 extbf{C}ross-modal extbf{P}rojection extbf{M}erging ( extbf{CPM}, 교차 모드 투영 통합)과 extbf{L}ow-rank extbf{P}arameter extbf{M}erging ( extbf{LPM}, 저랭크 파라미터 통합)을 통해 작업별 지식을 통합합니다. 구체적으로, CPM은 시각 프로토타입(visual-prototype) 지침을 통해 교차 모드 시각 표현을 적응적으로 통합하여 인식 정렬을 복원하고, 추론 과정에서 정확한 특징 복구를 보장합니다. 동시에, LPM은 재귀적으로 저랭크 가중치 행렬을 통합하여 작업별 저랭크 모듈 간의 상호 간섭을 제거합니다. 재귀적 최소 제곱법(recursive least squares)을 활용하여, LPM은 추론 안정성을 위한 최적의 통합 경로를 수학적으로 보장하는 폐쇄형 솔루션을 제공합니다. 주목할 점은, MAny는 추가적인 기울기 기반 최적화가 필요 없는 학습이 필요 없는 방식으로 작동하며, 초기 조정 이후 효율적인 CPU 기반 대수 연산을 통해 지식 통합을 달성합니다. 광범위한 실험 결과는 다양한 MLLM 및 벤치마크에서 MAny의 우수한 성능과 안정성을 입증합니다. 특히, UCIT 벤치마크에서 MAny는 두 가지 서로 다른 MLLM에서 최첨단 방법보다 각각 최대 8.57% 및 2.85%의 최종 평균 정확도 향상을 달성했습니다.

Original Abstract

Multimodal Continual Instruction Tuning (MCIT) is essential for sequential task adaptation of Multimodal Large Language Models (MLLMs) but is severely restricted by catastrophic forgetting. While existing literature focuses on the reasoning language backbone, in this work, we expose a critical yet neglected dual-forgetting phenomenon across both perception drift in Cross-modal Projection Space and reasoning collapse in Low-rank Parameter Space. To resolve this, we present \textbf{MAny} (\textbf{M}erge \textbf{Any}thing), a framework that merges task-specific knowledge through \textbf{C}ross-modal \textbf{P}rojection \textbf{M}erging (\textbf{CPM}) and \textbf{L}ow-rank \textbf{P}arameter \textbf{M}erging (\textbf{LPM}). Specifically, CPM recovers perceptual alignment by adaptively merging cross-modal visual representations via visual-prototype guidance, ensuring accurate feature recovery during inference. Simultaneously, LPM eliminates mutual interference among task-specific low-rank modules by recursively merging low-rank weight matrices. By leveraging recursive least squares, LPM provides a closed-form solution that mathematically guarantees an optimal fusion trajectory for reasoning stability. Notably, MAny operates as a training-free paradigm that achieves knowledge merging via efficient CPU-based algebraic operations, eliminating additional gradient-based optimization beyond initial tuning. Our extensive evaluations confirm the superior performance and robustness of MAny across multiple MLLMs and benchmarks. Specifically, on the UCIT benchmark, MAny achieves significant leads of up to 8.57\% and 2.85\% in final average accuracy over state-of-the-art methods across two different MLLMs, respectively.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!