2602.01554v1 Feb 02, 2026 cs.LG

InfoTok: 통합 멀티모달 대규모 언어 모델(MLLM)에서 용량 제약 환경 하의 공유 시각 토큰화를 위한 정보 흐름 제어

InfoTok: Regulating Information Flow for Capacity-Constrained Shared Visual Tokenization in Unified MLLMs

Xingyu Li
Xingyu Li
Citations: 63
h-index: 4
Lv Tang
Lv Tang
Citations: 761
h-index: 12
Tianyi Zheng
Tianyi Zheng
Citations: 10
h-index: 2
Bo Li
Bo Li
Citations: 416
h-index: 4

통합 멀티모달 대규모 언어 모델(MLLM)은 이미지 이해 및 생성을 단일 프레임워크로 통합하며, 시각 토큰화기는 다운스트림 작업에 사용될 시각적 입력을 토큰으로 변환하는 유일한 인터페이스 역할을 합니다. 그러나 기존의 공유 토큰 설계는 주로 아키텍처 기반이며, 토큰이 이해 및 생성을 지원하기 위해 어떤 정보를 보존해야 하는지에 대한 명시적인 기준이 부족합니다. 따라서 우리는 용량 제약 관점을 제시하며, 공유 토큰 기반의 통합 MLLM에서 시각 토큰화기는 계산 용량에 제약받는 학습자로 작동하므로, 토큰 예산은 활용하기 어려운 고엔트로피 변동 및 중복보다 재사용 가능한 구조를 우선시해야 합니다. 이러한 관점에서, 우리는 정보 병목 현상(Information Bottleneck, IB) 원칙에 기반한 정보 정규화 시각 토큰화 메커니즘인 InfoTok을 제안합니다. InfoTok은 토큰화를 이미지에서 공유 토큰으로, 그리고 멀티모달 출력으로의 정보 흐름을 제어하는 것으로 정의하며, 상호 정보 정규화를 통해 압축과 작업 관련성 간의 균형을 맞춥니다. 우리는 InfoTok을 추가적인 학습 데이터 없이 세 가지 대표적인 통합 MLLM에 통합했습니다. 실험 결과, 이해 및 생성 작업 모두에서 일관된 성능 향상을 보였으며, 이는 정보 정규화 토큰화가 통합 MLLM에서 공유 토큰 공간을 학습하는 데 있어 중요한 기반이 될 수 있음을 시사합니다.

Original Abstract

Unified multimodal large language models (MLLMs) integrate image understanding and generation in a single framework, with the visual tokenizer acting as the sole interface that maps visual inputs into tokens for downstream tasks. However, existing shared-token designs are mostly architecture-driven and lack an explicit criterion for what information tokens should preserve to support both understanding and generation. Therefore, we introduce a capacity-constrained perspective, highlighting that in shared-token unified MLLMs the visual tokenizer behaves as a compute-bounded learner, so the token budget should prioritize reusable structure over hard-to-exploit high-entropy variations and redundancy. Motivated by this perspective, we propose InfoTok, an information-regularized visual tokenization mechanism grounded in the Information Bottleneck (IB) principle. InfoTok formulates tokenization as controlling information flow from images to shared tokens to multimodal outputs, yielding a principled trade-off between compression and task relevance via mutual-information regularization. We integrate InfoTok into three representative unified MLLMs without introducing any additional training data. Experiments show consistent improvements on both understanding and generation, supporting information-regularized tokenization as a principled foundation for learning a shared token space in unified MLLMs.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!