2603.29634v1 Mar 31, 2026 cs.CV

MacTok: 이미지 생성을 위한 강력한 연속 토큰화 방법

MacTok: Robust Continuous Tokenization for Image Generation

Xinbo Gao
Xinbo Gao
Citations: 10
h-index: 2
Jiaoyang Ruan
Jiaoyang Ruan
Citations: 1
h-index: 1
Jun Ma
Jun Ma
Citations: 50
h-index: 4
Jian Pu
Jian Pu
Citations: 22
h-index: 3
Hengyu Zeng
Hengyu Zeng
Citations: 2
h-index: 1
Guanghao Li
Guanghao Li
Citations: 77
h-index: 5
Yuxiang Yan
Yuxiang Yan
Citations: 44
h-index: 4
Haoyu Wang
Haoyu Wang
Citations: 9
h-index: 1

연속 이미지 토크나이저는 효율적인 시각적 생성을 가능하게 하며, 변분 프레임워크 기반의 토크나이저는 KL 정규화를 통해 부드럽고 구조화된 잠재 표현을 학습할 수 있습니다. 그러나 토큰 수를 줄이면 종종 후방 콜랩스(posterior collapse) 현상이 발생하여, 인코더가 압축된 잠재 공간에 유용한 특징을 제대로 인코딩하지 못합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 이미지 마스킹과 표현 정렬을 활용하여 콜랩스를 방지하고, 동시에 압축적이고 강력한 표현을 학습하는 **MacTok**, 즉 **M**asked **A**ugmenting 1**C**ontinuous **Tok**enizer를 제안합니다. MacTok은 잠재 학습을 정규화하기 위해 랜덤 마스킹을 적용하고, 이미지의 중요한 영역을 강조하기 위해 DINO 기반의 의미론적 마스킹을 적용하여, 모델이 불완전한 시각 정보로부터 강력한 의미론을 인코딩하도록 유도합니다. 또한, 전역 및 지역 표현 정렬을 통해 MacTok은 1차원 잠재 공간에 풍부한 판별 정보를 유지하며, 단 64개 또는 128개의 토큰만으로 작동합니다. ImageNet 데이터셋에서 MacTok은 256x256 해상도에서 gFID 1.44를, 512x512 해상도에서 최첨단인 1.52를 SiT-XL 모델과 함께 달성했으며, 토큰 사용량을 최대 64배까지 줄였습니다. 이러한 결과는 마스킹과 의미론적 지침이 함께 사용될 때 후방 콜랩스를 방지하고 효율적이며 고품질의 토큰화를 달성할 수 있음을 보여줍니다.

Original Abstract

Continuous image tokenizers enable efficient visual generation, and those based on variational frameworks can learn smooth, structured latent representations through KL regularization. Yet this often leads to posterior collapse when using fewer tokens, where the encoder fails to encode informative features into the compressed latent space. To address this, we introduce \textbf{MacTok}, a \textbf{M}asked \textbf{A}ugmenting 1D \textbf{C}ontinuous \textbf{Tok}enizer that leverages image masking and representation alignment to prevent collapse while learning compact and robust representations. MacTok applies both random masking to regularize latent learning and DINO-guided semantic masking to emphasize informative regions in images, forcing the model to encode robust semantics from incomplete visual evidence. Combined with global and local representation alignment, MacTok preserves rich discriminative information in a highly compressed 1D latent space, requiring only 64 or 128 tokens. On ImageNet, MacTok achieves a competitive gFID of 1.44 at 256$\times$256 and a state-of-the-art 1.52 at 512$\times$512 with SiT-XL, while reducing token usage by up to 64$\times$. These results confirm that masking and semantic guidance together prevent posterior collapse and achieve efficient, high-fidelity tokenization.

1 Citations
0 Influential
2.5 Altmetric
13.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!