스냅샷 기반 일반화된 이산 확산
Generalized Discrete Diffusion from Snapshots
본 논문에서는 대규모 이산 상태 공간에서 임의의 노이즈 프로세스를 지원하는 이산 확산 모델링을 위한 통합 프레임워크인 Generalized Discrete Diffusion from Snapshots (GDDS)를 제안합니다. 우리의 제안은 기존의 모든 이산 확산 접근 방식을 포괄하며, 동시에 손상 메커니즘 선택에 있어 훨씬 더 큰 유연성을 제공합니다. 순방향 노이즈 프로세스는 균일화를 기반으로 하며, 이를 통해 빠르고 임의적인 손상이 가능합니다. 역방향 프로세스의 경우, 전체 노이즈 경로 대신 스냅샷 잠재 변수를 기반으로 간단한 증거 하한(ELBO)을 도출하여, 표준 생성 모델 아키텍처를 효율적으로 학습하고 명확한 확률론적 해석을 제공합니다. 대규모 어휘 이산 생성 작업에 대한 실험 결과는 제안된 프레임워크가 기존의 이산 확산 방법보다 학습 효율성과 생성 품질 측면에서 우수하며, 처음으로 이 규모에서 자기 회귀 모델을 능가한다는 것을 보여줍니다. 프로젝트 페이지([https://oussamazekri.fr/gdds](https://oussamazekri.fr/gdds))에서 코드와 관련 블로그 게시물을 제공합니다.
We introduce Generalized Discrete Diffusion from Snapshots (GDDS), a unified framework for discrete diffusion modeling that supports arbitrary noising processes over large discrete state spaces. Our formulation encompasses all existing discrete diffusion approaches, while allowing significantly greater flexibility in the choice of corruption dynamics. The forward noising process relies on uniformization and enables fast arbitrary corruption. For the reverse process, we derive a simple evidence lower bound (ELBO) based on snapshot latents, instead of the entire noising path, that allows efficient training of standard generative modeling architectures with clear probabilistic interpretation. Our experiments on large-vocabulary discrete generation tasks suggest that the proposed framework outperforms existing discrete diffusion methods in terms of training efficiency and generation quality, and beats autoregressive models for the first time at this scale. We provide the code along with a blog post on the project page : \href{https://oussamazekri.fr/gdds}{https://oussamazekri.fr/gdds}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.