VP-VAE: 적응형 벡터 섭동을 통한 벡터 양자화 재고
VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation
벡터 양자화 변이형 오토인코더(VQ-VAE)는 현대 생성 모델링의 근간이지만, 표현 학습과 이산적 코드북 최적화의 내재적 결합으로 인해 종종 학습 불안정성과 '코드북 붕괴' 문제를 겪는다. 본 논문에서는 학습 중 명시적인 코드북의 필요성을 제거하여 표현 학습을 이산화로부터 분리하는 새로운 패러다임인 VP-VAE(벡터 섭동 VAE)를 제안한다. 우리의 핵심 통찰은 신경망 관점에서 볼 때 양자화를 수행하는 것이 주로 잠재 공간에 구조화된 섭동을 주입하는 것으로 나타난다는 점이다. 이에 따라 VP-VAE는 미분 불가능한 양자화기를 메트로폴리스-헤이스팅스 샘플링을 통해 생성된 분포 일관성 및 스케일 적응형 잠재 섭동으로 대체한다. 이러한 설계는 코드북 없이도 안정적인 학습을 가능하게 하는 동시에 추론 시 발생하는 양자화 오차에 대해 모델을 강건하게 만든다. 나아가 잠재 변수가 대략적으로 균등 분포를 따른다는 가정 하에, FSQ 스타일 고정 양자화기에 대한 통합된 이론적 설명과 실질적인 개선을 제공하는 VP-VAE의 경량화 변형인 FSP(유한 스칼라 섭동)를 도출한다. 이미지 및 오디오 벤치마크에 대한 광범위한 실험을 통해 VP-VAE와 FSP가 결합된 코드북 학습의 고유한 불안정성을 방지하는 동시에, 재구성 충실도를 개선하고 훨씬 더 균형 잡힌 토큰 사용을 달성함을 입증한다.
Vector Quantized Variational Autoencoders (VQ-VAEs) are fundamental to modern generative modeling, yet they often suffer from training instability and "codebook collapse" due to the inherent coupling of representation learning and discrete codebook optimization. In this paper, we propose VP-VAE (Vector Perturbation VAE), a novel paradigm that decouples representation learning from discretization by eliminating the need for an explicit codebook during training. Our key insight is that, from the neural network's viewpoint, performing quantization primarily manifests as injecting a structured perturbation in latent space. Accordingly, VP-VAE replaces the non-differentiable quantizer with distribution-consistent and scale-adaptive latent perturbations generated via Metropolis--Hastings sampling. This design enables stable training without a codebook while making the model robust to inference-time quantization error. Moreover, under the assumption of approximately uniform latent variables, we derive FSP (Finite Scalar Perturbation), a lightweight variant of VP-VAE that provides a unified theoretical explanation and a practical improvement for FSQ-style fixed quantizers. Extensive experiments on image and audio benchmarks demonstrate that VP-VAE and FSP improve reconstruction fidelity and achieve substantially more balanced token usage, while avoiding the instability inherent to coupled codebook training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.