DeLo: 연속적인 데이터 스트림 학습 및 빈번한 모드 불완전성 문제를 해결하기 위한 이중 분해 저차원 전문가 협력 모델
DeLo: Dual Decomposed Low-Rank Experts Collaboration for Continual Missing Modality Learning
실제 환경에서 대규모 다중 모드 모델(LMM)을 활용하는 것은 순차적인 데이터 스트림에서 학습하면서 빈번하게 발생하는 모드 불완전성을 처리해야 하는, 즉 연속적인 모드 불완전성 학습(CMML)이라는 이중적인 과제를 안고 있습니다. 그러나 기존의 CMML 연구는 주로 프롬프트 튜닝 기술에 의존해 왔지만, 공유된 임베딩 공간 내에서 학습 가능한 프롬프트 간의 상호 간섭으로 인해 이 기술은 이러한 과제에 어려움을 겪습니다. 또한, 모드 공유 모듈과 함께 사용된 저차원 적응(LoRA)을 단순하게 적용하는 경우에도 모드 간의 간섭으로 인해 문제가 발생할 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 CMML을 위한 새로운 이중 분해 저차원 전문가 아키텍처를 활용하는 첫 번째 프레임워크인 DeLo를 제안합니다. 특히, 이 아키텍처는 분해된 LoRA 전문가를 사용하여 모드 간의 간섭을 해결하며, 분리된 모드별 요인 풀에서 추출된 랭크-1 요인을 사용하여 LoRA 업데이트 행렬을 동적으로 구성합니다. 제안된 프레임워크는 태스크 분할 구조를 통해 파국적인 망각을 방지하며, 두 가지 핵심 메커니즘을 통해 지원됩니다. 첫째, 불완전한 데이터를 처리하기 위한 교차 모드 가이드 라우팅 전략이고, 둘째는 효율적이고 태스크에 독립적인 추론을 위한 태스크-키 메모리입니다. 확립된 CMML 벤치마크에서의 광범위한 실험 결과, 제안하는 방법이 최첨단 기술보다 훨씬 우수한 성능을 보임을 보여줍니다. 이는 실제 다중 모드 문제에 대한 원칙적이고 아키텍처를 고려한 LoRA 설계의 가치를 강조합니다.
Adapting Large Multimodal Models (LMMs) to real-world scenarios poses the dual challenges of learning from sequential data streams while handling frequent modality incompleteness, a task known as Continual Missing Modality Learning (CMML). However, existing works on CMML have predominantly relied on prompt tuning, a technique that struggles with this task due to cross-task interference between its learnable prompts in their shared embedding space. A naive application of Low-Rank Adaptation (LoRA) with modality-shared module will also suffer modality interference from competing gradients. To this end, we propose DeLo, the first framework to leverage a novel dual-decomposed low-rank expert architecture for CMML. Specifically, this architecture resolves modality interference through decomposed LoRA expert, dynamically composing LoRA update matrix with rank-one factors from disentangled modality-specific factor pools. Embedded within a task-partitioned framework that structurally prevents catastrophic forgetting, this expert system is supported by two key mechanisms: a Cross-Modal Guided Routing strategy to handle incomplete data and a Task-Key Memory for efficient, task-agnostic inference. Extensive experiments on established CMML benchmarks demonstrate that our method significantly outperforms state-of-the-art approaches. This highlights the value of a principled, architecturally-aware LoRA design for real-world multimodal challenges.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.