자기 회귀 시각 생성 모델은 서론이 필요하다
Autoregressive Visual Generation Needs a Prologue
본 연구에서는 자기 회귀(AR) 이미지 생성 모델에서 재구성(reconstruction)과 생성(generation) 사이의 간극을 해소하는 방법인 '프롤로그(Prologue)'를 제안합니다. 기존 방식과 달리, 프롤로그는 시각적 토큰 시퀀드 앞에 추가되는 작은 토큰 집합을 생성합니다. 이 프롤로그 토큰들은 자기 회귀 교차 엔트로피(CE) 손실만을 사용하여 학습되며, 시각적 토큰은 재구성에만 사용됩니다. 이러한 분리된 설계 덕분에, 자기 회귀 모델의 실제 분포를 통해 생성을 최적화하면서도 재구성 품질에 영향을 미치지 않습니다. 이러한 효과는 ELBO 관점에서 더욱 명확하게 설명할 수 있습니다. ImageNet 256x256 데이터셋에서, Prologue-Base 모델은 판별기 자유 가이드(classifier-free guidance) 없이 gFID 값을 21.01에서 10.75로 감소시킵니다. 또한, Prologue-Large 모델은 표준 자기 회귀 모델을 사용하여 경쟁력 있는 rFID 값 0.99와 gFID 값 1.46을 달성하며, 추가적인 의미론적 감독 없이도 우수한 성능을 보입니다. 흥미롭게도, 자기 회귀 기반의 학습만으로 프롤로그 토큰은 예상치 못한 의미론적 구조를 나타냅니다. 16개의 프롤로그 토큰에 대한 선형 탐색(linear probing) 결과, 35.88%의 Top-1 정확도를 달성하여, 표준 토크나이저에서 추출한 처음 16개 토큰의 23.71%보다 훨씬 높은 성능을 보입니다. 또한, 고정된 프롤로그 토큰을 사용한 재샘플링은 유사한 고수준의 의미론적 구조를 유지합니다. 이러한 결과는 새로운 방향을 제시합니다. 즉, 원래 표현을 그대로 유지하면서 별도로 학습된 생성적 표현을 도입함으로써 생성 품질을 향상시킬 수 있습니다.
In this work, we propose Prologue, an approach to bridging the reconstruction-generation gap in autoregressive (AR) image generation. Instead of modifying visual tokens to satisfy both reconstruction and generation, Prologue generates a small set of prologue tokens prepended to the visual token sequence. These prologue tokens are trained exclusively with the AR cross-entropy (CE) loss, while visual tokens remain dedicated to reconstruction. This decoupled design lets us optimize generation through the AR model's true distribution without affecting reconstruction quality, which we further formalize from an ELBO perspective. On ImageNet 256x256, Prologue-Base reduces gFID from 21.01 to 10.75 without classifier-free guidance while keeping reconstruction almost unchanged; Prologue-Large reaches a competitive rFID of 0.99 and gFID of 1.46 using a standard AR model without auxiliary semantic supervision. Interestingly, driven only by AR gradients, prologue tokens exhibit emergent semantic structure: linear probing on 16 prologue tokens reaches 35.88% Top-1, far above the 23.71% of the first 16 tokens from a standard tokenizer; resampling with fixed prologue tokens preserves a similar high-level semantic layout. Our results suggest a new direction: generation quality can be improved by introducing a separate learned generative representation while leaving the original representation intact.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.