UniWeTok: 2^128 크기의 통합된 이진 토크나이저를 활용한 통합 멀티모달 대규모 언어 모델
UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model
통합 멀티모달 대규모 언어 모델(MLLM)은 고품질 재구성, 복잡한 의미 추출, 그리고 생성에 적합한 시각적 표현을 동시에 지원해야 합니다. 그러나 기존의 시각적 토크나이저는 종종 이러한 상반된 목표를 단일 프레임워크 내에서 만족시키는 데 어려움을 겪습니다. 본 논문에서는 이러한 격차를 해소하기 위해 2^128 크기의 방대한 이진 코드북을 사용하는 통합된 이산 토크나이저인 UniWeTok을 소개합니다. 학습 프레임워크에서, 우리는 의미 추출과 이산 토큰의 생성적 특성을 향상시키기 위해 사전-사후 증류(Pre-Post Distillation)와 생성적 사전 지식(Generative-Aware Prior)을 도입했습니다. 모델 아키텍처 측면에서, 우리는 SigLu 활성화 함수를 사용하는 컨볼루션-어텐션 하이브리드 아키텍처를 제안합니다. SigLu 활성화 함수는 인코더 출력에 제한을 가하고 의미 증류 과정을 안정화할 뿐만 아니라, 토큰 엔트로피 손실과 커밋먼트 손실 사이의 최적화 충돌을 효과적으로 해결합니다. 또한, UniWeTok의 다양한 이미지 해상도 및 인간 얼굴, 텍스트 콘텐츠와 같은 감지 민감한 시나리오에서의 적응성을 향상시키기 위해 세 단계의 학습 프레임워크를 제안합니다. ImageNet 데이터셋에서, UniWeTok은 최첨단 이미지 생성 성능(FID: UniWeTok 1.38 vs. REPA 1.42)을 달성하면서도 매우 낮은 학습 컴퓨팅 자원(학습 토큰 수: UniWeTok 33B vs. REPA 262B)을 필요로 합니다. 일반 도메인에서, UniWeTok은 멀티모달 이해, 이미지 생성(DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), 편집(GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06)을 포함한 광범위한 작업에서 매우 경쟁력 있는 성능을 보여줍니다. 우리는 UniWeTok의 코드 및 모델을 공개하여 통합 토크나이저 및 MLLM에 대한 커뮤니티의 연구를 지원합니다.
Unified Multimodal Large Language Models (MLLMs) require a visual representation that simultaneously supports high-fidelity reconstruction, complex semantic extraction, and generative suitability. However, existing visual tokenizers typically struggle to satisfy these conflicting objectives within a single framework. In this paper, we introduce UniWeTok, a unified discrete tokenizer designed to bridge this gap using a massive binary codebook ($\mathit{2^{128}}$). For training framework, we introduce Pre-Post Distillation and a Generative-Aware Prior to enhance the semantic extraction and generative prior of the discrete tokens. In terms of model architecture, we propose a convolution-attention hybrid architecture with the SigLu activation function. SigLu activation not only bounds the encoder output and stabilizes the semantic distillation process but also effectively addresses the optimization conflict between token entropy loss and commitment loss. We further propose a three-stage training framework designed to enhance UniWeTok's adaptability cross various image resolutions and perception-sensitive scenarios, such as those involving human faces and textual content. On ImageNet, UniWeTok achieves state-of-the-art image generation performance (FID: UniWeTok 1.38 vs. REPA 1.42) while requiring a remarkably low training compute (Training Tokens: UniWeTok 33B vs. REPA 262B). On general-domain, UniWeTok demonstrates highly competitive capabilities across a broad range of tasks, including multimodal understanding, image generation (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84), and editing (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). We release code and models to facilitate community exploration of unified tokenizer and MLLM.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.