QMoP: 쿼리 기반 혼합 투영 모델을 이용한 효율적인 시각적 토큰 압축
QMoP: Query Guided Mixture-of-Projector for Efficient Visual Token Compression
다중 모드 대규모 언어 모델은 시각적 토큰의 수가 텍스트 토큰보다 훨씬 많기 때문에 심각한 계산 및 메모리 병목 현상을 겪습니다. 최근 연구에서는 시각적 토큰을 텍스트에 맞춰 정렬하고 압축하기 위해 투영 모듈을 사용하지만, 이러한 방법은 일반적으로 고정된 휴리스틱에 의존하여 다양한 시나리오에서의 적응성을 제한합니다. 본 논문에서는 먼저 쿼리 기반 혼합 투영 모델(QMoP)이라는 새로운 프레임워크를 제안합니다. QMoP는 세 가지 협력적인 방식으로 시각적 토큰을 적응적으로 압축합니다. (1) 전체적인 의미를 파악하기 위한 풀링 기반 분기, (2) 고수준 의미 표현을 추출하기 위한 리샘플링 분기, (3) 세밀한 토큰 선택을 통해 중요한 시각적 세부 정보를 유지하기 위한 가지치기 기반 분기입니다. 이러한 분기들을 적응적으로 조정하기 위해, 시각적 입력과 텍스트 쿼리에 따라 각 분기의 출력 결과를 동적으로 선택하고 가중치를 부여하는 쿼리 기반 라우터(QGR)를 도입했습니다. 전문가 혼합 방식의 융합 메커니즘을 설계하여 각 전략의 장점을 활용하고 노이즈를 억제합니다. 또한, 시각적 토큰 압축의 효과를 체계적으로 평가하기 위해, 시각적 토큰 압축으로 인한 정보 손실을 평가하는 전용 벤치마크인 VTCBench를 개발했습니다. 광범위한 실험 결과, QMoP는 기본적인 압축 모듈에 의존함에도 불구하고 강력한 기준 모델보다 우수한 성능을 보이며, 메모리, 계산 및 추론 시간 측면에서 상당한 절감 효과를 제공합니다.
Multimodal large language models suffer from severe computational and memory bottlenecks, as the number of visual tokens far exceeds that of textual tokens. While recent methods employ projector modules to align and compress visual tokens into text-aligned features, they typically depend on fixed heuristics that limit adaptability across diverse scenarios. In this paper, we first propose Query Guided Mixture-of-Projector (QMoP), a novel and flexible framework that adaptively compresses visual tokens via three collaborative branches: (1) a pooling-based branch for coarse-grained global semantics, (2) a resampler branch for extracting high-level semantic representations, and (3) a pruning-based branch for fine-grained token selection to preserve critical visual detail. To adaptively coordinate these branches, we introduce the Query Guided Router (QGR), which dynamically selects and weights the outputs from different branches based on both visual input and textual queries. A Mixture-of-Experts-style fusion mechanism is designed to aggregate the outputs, harnessing the strengths of each strategy while suppressing noise. To systematically evaluate the effects of Visual Token Compression, we also develop VTCBench, a dedicated benchmark for evaluating the information loss induced by visual token compression. Extensive experiments demonstrate that despite relying on fundamental compression modules, QMoP outperforms strong baselines and delivers significant savings in memory, computation, and inference time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.