MHA2MLA-VLM: 딥시크의 경제적인 멀티-헤드 잠재적 어텐션을 비전-언어 모델에 적용하는 방법
MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models
비전-언어 모델(VLM)이 점점 더 복잡하고 다양한 작업을 수행함에 따라, 키-값(KV) 캐시의 빠른 증가는 추론 과정에서 상당한 메모리 및 계산 병목 현상을 야기합니다. 멀티-헤드 잠재적 어텐션(MLA)은 KV 캐시를 압축하고 추론 속도를 높이는 효과적인 방법이지만, 기존 VLM을 MLA 아키텍처로 전환하는 과정에서 비용이 많이 드는 사전 훈련 없이 이를 구현하는 것은 아직 활발히 연구되지 않았습니다. 본 연구에서는, 상용 VLM을 MLA로 변환하기 위한 효율적인 파라미터 사용량과 다중 모드 인식 기능을 갖춘 프레임워크인 MHA2MLA-VLM을 제시합니다. 저희의 접근 방식은 다음과 같은 두 가지 핵심 기술을 특징으로 합니다. (1) 전통적인 설정과 다중 모드 설정을 모두 지원하는 모달리티 적응형 부분-RoPE 전략으로, 불필요한 차원을 선택적으로 마스킹합니다. (2) 시각 및 텍스트 KV 공간을 독립적으로 압축하는 모달리티 분리 저랭크 근사 방법입니다. 또한, 저희는 파라미터 효율적인 미세 조정 기술을 도입하여 적응 비용을 최소화하고, 파라미터 거리보다는 출력 활성화 오류를 최소화하는 것이 성능 저하를 크게 줄이는 데 도움이 된다는 것을 입증했습니다. 세 가지 대표적인 VLM에 대한 광범위한 실험 결과, MHA2MLA-VLM은 최소한의 지도 데이터로 원래 모델의 성능을 복원하고, KV 캐시의 크기를 크게 줄이며, KV 양자화와 원활하게 통합될 수 있음을 보여줍니다.
As vision-language models (VLMs) tackle increasingly complex and multimodal tasks, the rapid growth of Key-Value (KV) cache imposes significant memory and computational bottlenecks during inference. While Multi-Head Latent Attention (MLA) offers an effective means to compress the KV cache and accelerate inference, adapting existing VLMs to the MLA architecture without costly pretraining remains largely unexplored. In this work, we present MHA2MLA-VLM, a parameter-efficient and multimodal-aware framework for converting off-the-shelf VLMs to MLA. Our approach features two core techniques: (1) a modality-adaptive partial-RoPE strategy that supports both traditional and multimodal settings by selectively masking nonessential dimensions, and (2) a modality-decoupled low-rank approximation method that independently compresses the visual and textual KV spaces. Furthermore, we introduce parameter-efficient fine-tuning to minimize adaptation cost and demonstrate that minimizing output activation error, rather than parameter distance, substantially reduces performance loss. Extensive experiments on three representative VLMs show that MHA2MLA-VLM restores original model performance with minimal supervised data, significantly reduces KV cache footprint, and integrates seamlessly with KV quantization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.