시각적 토큰은 실제로 무엇을 담고 있는가? 다중 모드 대규모 언어 모델에서 희소성과 중복성을 밝히기
What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
다중 모드 대규모 언어 모델(MLLM)은 시각적 토큰을 언어 모델의 임베딩 공간으로 투영하지만, 시각적 의미의 내부 구조와 처리 방식은 아직 제대로 이해되지 못하고 있습니다. 본 연구에서는 새로운 분석 도구인 $ extbf{EmbedLens}$를 활용한 이원적인 분석 프레임워크를 도입하여 세밀한 분석을 수행했습니다. 분석 결과, 입력 레벨에서 뚜렷한 의미적 희소성이 나타나는 것을 확인했으며, 시각적 토큰은 일관적으로 '소멸', '죽음', '활성'의 세 가지 범주로 나뉩니다. 놀랍게도, 전체 입력의 약 60%에 해당하는 '활성' 토큰만이 이미지에 특화된 의미를 담고 있습니다. 또한, 특정 패치 압축 벤치마크를 사용하여, 이러한 활성 토큰이 LLM에 입력되기 전에 이미 객체, 색상, OCR 등과 같은 풍부하고 미세한 정보를 담고 있다는 것을 입증했습니다. 대부분의 일반적인 작업에서는 내부 시각적 계산(예: 시각적 어텐션 및 피드 포워드 네트워크)이 불필요한 것으로 나타났습니다. 시각적 정보에 매우 의존적인 소수의 작업에서 내부 처리 방식이 실제로 효과를 보이는 경우, 활성 토큰이 초기 임베딩 공간이 아닌 중간 LLM 레이어와 자연스럽게 정렬되는 것을 확인했습니다. 이는 얕은 레이어 처리가 불필요하며, 직접적인 중간 레이어 주입이 충분하다는 것을 시사합니다. 궁극적으로, 본 연구는 시각적 토큰 처리 방식에 대한 통합적인 메커니즘적 관점을 제시하며, 선택적 토큰 제거, 최소화된 시각적 계산, 중간 레이어 주입을 통해 더욱 효율적이고 해석 가능한 MLLM 아키텍처를 개발하는 데 기여할 수 있습니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/EIT-NLP/EmbedLens.
Multimodal large language models (MLLMs) project visual tokens into the embedding space of language models, yet the internal structuring and processing of visual semantics remain poorly understood. In this work, we introduce a two-fold analytical framework featuring a novel probing tool, $\textbf{EmbedLens}$, to conduct a fine-grained analysis. We uncover a pronounced semantic sparsity at the input level: visual tokens consistently partition into sink, dead, and alive categories. Remarkably, only the alive tokens, comprising $\approx60\%$ of the total input, carry image-specific meaning. Furthermore, using a targeted patch-compression benchmark, we demonstrate that these alive tokens already encode rich, fine-grained cues (e.g., objects, colors, and OCR) prior to entering the LLM. Internal visual computations (such as visual attention and feed-forward networks) are redundant for most standard tasks. For the small subset of highly vision-centric tasks that actually benefit from internal processing, we reveal that alive tokens naturally align with intermediate LLM layers rather than the initial embedding space, indicating that shallow-layer processing is unnecessary and that direct mid-layer injection is both sufficient. Ultimately, our findings provide a unified mechanistic view of visual token processing, paving the way for more efficient and interpretable MLLM architectures through selective token pruning, minimized visual computation, and mid-layer injection. The code is released at: https://github.com/EIT-NLP/EmbedLens.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.