연속적 디노이징을 이용한 단일 단계 언어 모델링
One-step Language Modeling via Continuous Denoising
이산 확산 모델은 자기 회귀 모델보다 빠른 생성 속도를 제공할 수 있다는 잠재력으로 인해 광범위한 관심을 받고 있습니다. 그러나 실제로는 소수의 단계에서 샘플 품질이 급격하게 저하되어 이러한 잠재력을 실현하지 못합니다. 본 연구에서는 플로우 기반의 연속적 디노이징을 활용하는 언어 모델이 품질과 속도 측면에서 이산 확산 모델보다 우수함을 보여줍니다. 플로우의 기본 원리를 재검토하여, 원-핫 토큰 인코딩에 대한 유클리드 디노이징을 수행하는 플로우 기반 언어 모델(FLM)을 구축했습니다. 제안된 모델은 교차 엔트로피 목적 함수를 사용하여 원본 데이터를 예측하는 방식으로 학습될 수 있으며, 간단한 시간 재파라미터화를 통해 학습 안정성과 생성 품질을 크게 향상시켰습니다. FLM을 해당 플로우 맵으로 증류하여, 소수의 단계로 생성할 수 있는 증류 플로우 맵 언어 모델(FMLM)을 얻었습니다. LM1B 및 OWT 언어 데이터셋에서 FLM은 최첨단 이산 확산 모델과 동등한 생성 품질을 달성했습니다. FMLM을 사용한 접근 방식은 전반적으로 최근의 소규모 단계 언어 모델보다 성능이 우수하며, 단일 단계 생성이 다른 모델의 8단계 품질을 능가합니다. 본 연구는 생성 모델링에서 이산 모달리티에 대한 이산 확산 프로세스가 반드시 필요하다는 널리 받아들여지는 가설에 의문을 제기하며, 대규모 플로우 기반 언어 모델링을 가속화할 수 있는 길을 열어줍니다. 관련 코드는 https://github.com/david3684/flm 에서 확인할 수 있습니다.
Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.