연속 잠재 확산 언어 모델
Continuous Latent Diffusion Language Model
대규모 언어 모델은 자기 회귀 방식으로 놀라운 성공을 거두었지만, 고품질 텍스트 생성은 반드시 왼쪽에서 오른쪽으로 진행되는 고정된 순서를 따르지 않아도 됩니다. 기존의 대안들은 여전히 생성 효율성, 확장 가능한 표현 학습 및 효과적인 전역 의미 모델링을 동시에 달성하는 데 어려움을 겪고 있습니다. 본 논문에서는 텍스트 생성을 계층적 정보 분해를 통해 프레임화하는 계층적 잠재 확산 언어 모델인 Cola DLM을 제안합니다. Cola DLM은 먼저 텍스트 VAE를 사용하여 안정적인 텍스트-잠재 매핑을 학습한 다음, 블록-인과 DiT를 사용하여 연속 잠재 공간에서 전역 의미 사전 지식을 모델링하고, 마지막으로 조건부 디코딩을 통해 텍스트를 생성합니다. 통합된 마르코프 경로 관점에서, Cola DLM의 확산 과정은 토큰 수준의 관측값 복구 대신 잠재 사전 지식의 전송을 수행하여 전역 의미 구조와 지역 텍스트 표현을 분리합니다. 이러한 설계는 더욱 유연한 비자기 회귀적 유도 편향을 제공하며, 연속 공간에서 의미 압축 및 사전 지식 적합을 지원하고, 다른 연속 모달리티로의 자연스러운 확장을 가능하게 합니다. 4가지 연구 질문, 8개의 벤치마크, 엄격하게 일치된 약 20억 파라미터의 자기 회귀 및 LLaDA 기반 모델, 그리고 약 2000 EFLOPs까지의 확장 곡선을 포함한 실험을 통해 Cola DLM의 효과적인 전체 구성과 텍스트 생성을 위한 강력한 확장성을 확인했습니다. 종합적으로, 이러한 결과는 계층적 연속 잠재 사전 지식 모델링을 엄격한 토큰 수준 언어 모델링의 합리적인 대안으로 확립하며, 여기서 생성 품질과 확장성은 모델의 능력을 더 잘 반영할 수 있습니다. 또한, 이 연구는 이산 텍스트와 연속 모달리티 간의 통합 모델링을 위한 구체적인 경로를 제시합니다.
Large language models have achieved remarkable success under the autoregressive paradigm, yet high-quality text generation need not be tied to a fixed left-to-right order. Existing alternatives still struggle to jointly achieve generation efficiency, scalable representation learning, and effective global semantic modeling. We propose Cola DLM, a hierarchical latent diffusion language model that frames text generation through hierarchical information decomposition. Cola DLM first learns a stable text-to-latent mapping with a Text VAE, then models a global semantic prior in continuous latent space with a block-causal DiT, and finally generates text through conditional decoding. From a unified Markov-path perspective, its diffusion process performs latent prior transport rather than token-level observation recovery, thereby separating global semantic organization from local textual realization. This design yields a more flexible non-autoregressive inductive bias, supports semantic compression and prior fitting in continuous space, and naturally extends to other continuous modalities. Through experiments spanning 4 research questions, 8 benchmarks, strictly matched ~2B-parameter autoregressive and LLaDA baselines, and scaling curves up to about 2000 EFLOPs, we identify an effective overall configuration of Cola DLM and verify its strong scaling behavior for text generation. Taken together, the results establish hierarchical continuous latent prior modeling as a principled alternative to strictly token-level language modeling, where generation quality and scaling behavior may better reflect model capability than likelihood, while also suggesting a concrete path toward unified modeling across discrete text and continuous modalities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.