대규모 시각-언어 모델을 위한 토큰 감소 재고
Rethinking Token Reduction for Large Vision-Language Models
대규모 시각-언어 모델(LVLM)은 시각적 이해 및 추론에서 뛰어난 성능을 보이지만, 과도한 시각 토큰은 높은 추론 비용을 초래합니다. 최근의 토큰 감소 방법들이 이러한 문제를 완화하지만, 대부분 단일 턴 시각 질의 응답(VQA)에 초점을 맞추고 있으며, 보다 실용적인 다중 턴 VQA(MT-VQA) 시나리오는 아직 충분히 연구되지 않았습니다. MT-VQA는 이후 질문이 미리 알려지지 않고, 이미지의 임의 영역을 참조할 수 있다는 추가적인 어려움을 제시하며, 기존의 감소 전략을 비효율적으로 만듭니다. 특히, 현재의 접근 방식은 크게 두 가지 범주로 나뉩니다. 첫째는 초기 텍스트 프롬프트에 의존하는 방법으로, 이후 턴에 유용한 정보를 버려 성능 저하를 초래합니다. 둘째는 프롬프트에 독립적인 방법으로, 기술적으로 다중 턴 환경에 적용 가능하지만, 어텐션 점수와 같은 휴리스틱 감소 지표에 의존하여 최적의 성능을 달성하지 못합니다. 본 논문에서는 이러한 한계를 극복하는 학습 기반의 프롬프트 독립적인 방법인 MetaCompress를 제안합니다. 우리는 먼저 토큰 감소를 학습 가능한 압축 매핑으로 공식화하여, 가지치기 및 병합과 같은 기존의 형식을 단일 학습 목표로 통합합니다. 이러한 공식화를 바탕으로, 제한된 계산 비용으로 최적의 압축 매핑을 학습할 수 있는 데이터 효율적인 학습 패러다임을 도입합니다. MT-VQA 벤치마크 및 다양한 LVLM 아키텍처에서의 광범위한 실험 결과, MetaCompress는 우수한 효율성-정확성 균형을 달성하며, 대화 턴 전반에 걸쳐 강력한 일반화 성능을 유지함을 보여줍니다. 저희 코드는 https://github.com/MArSha1147/MetaCompress 에서 확인할 수 있습니다.
Large Vision-Language Models (LVLMs) excel in visual understanding and reasoning, but the excessive visual tokens lead to high inference costs. Although recent token reduction methods mitigate this issue, they mainly target single-turn Visual Question Answering (VQA), leaving the more practical multi-turn VQA (MT-VQA) scenario largely unexplored. MT-VQA introduces additional challenges, as subsequent questions are unknown beforehand and may refer to arbitrary image regions, making existing reduction strategies ineffective. Specifically, current approaches fall into two categories: prompt-dependent methods, which bias toward the initial text prompt and discard information useful for subsequent turns; prompt-agnostic ones, which, though technically applicable to multi-turn settings, rely on heuristic reduction metrics such as attention scores, leading to suboptimal performance. In this paper, we propose a learning-based prompt-agnostic method, termed MetaCompress, overcoming the limitations of heuristic designs. We begin by formulating token reduction as a learnable compression mapping, unifying existing formats such as pruning and merging into a single learning objective. Upon this formulation, we introduce a data-efficient training paradigm capable of learning optimal compression mappings with limited computational costs. Extensive experiments on MT-VQA benchmarks and across multiple LVLM architectures demonstrate that MetaCompress achieves superior efficiency-accuracy trade-offs while maintaining strong generalization across dialogue turns. Our code is available at https://github.com/MArSha1147/MetaCompress.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.