2605.06207v1 May 07, 2026 cs.CV

엔트로피 절벽 극복: 자기 회귀 시각 생성 모델을 위한 가변 코드북 크기 양자화

Taming the Entropy Cliff: Variable Codebook Size Quantization for Autoregressive Visual Generation

Weijian Luo
Weijian Luo
Citations: 220
h-index: 8
Tianyang Hu
Tianyang Hu
Citations: 924
h-index: 17
Guang Yang
Guang Yang
Citations: 21
h-index: 3
Bowen Zheng
Bowen Zheng
Citations: 3
h-index: 1
Colin Zhang
Colin Zhang
Citations: 85
h-index: 6

대부분의 이산 시각 토크나이저는 기본 설계를 따르는데, 이는 시퀀스의 모든 위치가 동일한 코드북을 공유한다는 것입니다. 연구자들은 더 나은 재구성 성능을 얻기 위해 코드북 크기 K를 조정하려고 시도합니다. 이러한 고정된 코드북 설계는 근본적인 정보 이론적 한계에 도달합니다. 우리는 훈련 데이터셋의 위치별 조건 엔트로피가 시퀀스를 따라 매우 빠르게 감소하여 몇몇 위치 이후에는 조건 분포가 본질적으로 결정론적이 된다는 것을 관찰했습니다. ImageNet에서 K=16384일 때, 이는 256개 위치 중 단 2개 위치에서만 발생하며, 나머지 254개 위치는 암기 문제로 변합니다. 우리는 이 현상을 '엔트로피 절벽(Entropy Cliff)'이라고 부르며, 간단한 표현식 $t^{*} = ceil rac{ rac{log_2 N}{ rac{log_2 K}}}{} ceil$로 공식화합니다. 흥미롭게도, 이 현상은 언어에서는 관찰되지 않습니다. 왜냐하면 언어의 고유한 구조가 위치별 유효 엔트로피를 코드북 용량보다 훨씬 낮게 유지하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 가변 코드북 크기 양자화(VCQ)를 제안합니다. VCQ는 코드북 크기 $K_t$가 시퀀스를 따라 $K_{ ext{min}}=2$에서 $K_{ ext{max}}$로 단조적으로 증가하며, 손실 함수, 파라미터 수 및 자기 회귀 훈련 절차는 변경되지 않습니다. 표준 다음 토큰 예측을 사용하는 일반적인 자기 회귀 트랜스포머에서, VCQ의 기본 버전은 ImageNet $256 imes256$에서 CFG를 사용하지 않고 gFID를 27.98에서 14.80으로 줄입니다. 확장된 VCQ는 추가적인 훈련 기법(예: 의미론적 정규화 또는 인과적 정렬) 없이 684M의 자기 회귀 파라미터로 gFID 1.71을 달성합니다. $K_{ ext{min}}=2$에서의 극단적인 정보 병목 현상은 자연스럽게 조-세밀 의미 계층 구조를 유도합니다. ImageNet에서 처음 10개의 토큰만을 사용하는 선형 탐색은 43.8%의 최고 1순위 정확도를 달성하는 반면, 균일한 코드북의 경우 27.1%입니다. 궁극적으로, 이러한 결과는 코드북의 총 용량뿐만 아니라 해당 용량이 어떻게 분배되고 구성되는지가 중요하다는 것을 보여줍니다.

Original Abstract

Most discrete visual tokenizers rely on a default design: every position in the sequence shares the same codebook. Researchers try to scale the codebook size $K$ to get better reconstruction performance. Such a constant-codebook design hits a fundamental information-theoretic limit. We observe that the per-position conditional entropy of the training set decays so quickly along the sequence that, after a few positions, the conditional distribution becomes essentially deterministic. On ImageNet with $K=16384$, this happens within only 2 out of 256 positions, turning the remaining 254 into a memorization problem. We call this phenomenon the Entropy Cliff and formalize it with a simple expression: $t^{*} = \lceil \log_2 N / \log_2 K \rceil$. Interestingly, this phenomenon is not observed in language, as its natural structure keeps the effective entropy per position well below the codebook capacity. To address this, we propose Variable Codebook Size Quantization (VCQ), where the codebook size $K_t$ grows monotonically along the sequence from $K_{\min}=2$ to $K_{\max}$, leaving the loss function, parameter count, and AR training procedure unchanged. With a vanilla autoregressive Transformer and standard next-token prediction, a base version of VCQ reduces gFID w/o CFG from 27.98 to 14.80 on ImageNet $256\times256$ over the baseline. Scaled up, it reaches gFID 1.71 with 684M autoregressive parameters, without any extra training techniques such as semantic regularization or causal alignment. The extreme information bottleneck at $K_{\min}=2$ naturally induces a coarse-to-fine semantic hierarchy: a linear probe on only the first 10 tokens reaches 43.8% top-1 accuracy on ImageNet, compared to 27.1% for uniform codebooks. Ultimately, these results show that what matters is not only the total capacity of the codebook, but also how that capacity is distributed and organized.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!