CoDAR: 연속적인 확산 언어 모델은 생각보다 강력합니다.
CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think
본 연구는 연속적인 확산 언어 모델(DLM)이 매력적인 연속적인 생성 동역학을 가지고 있음에도 불구하고, 왜 이산적인 확산 방식에 비해 성능이 뒤쳐지는지 분석합니다. 제어된 토큰 복구 연구를 통해, 노이즈 제거된 임베딩을 토큰으로 변환하는 최종 투영 과정, 즉 '토큰 반올림'이 주요 병목 현상임을 밝혀냈습니다. 이러한 통찰력을 바탕으로, 본 연구에서는 CoDAR(Continuous Diffusion with Contextual AutoRegressive Decoder)라는 두 단계 프레임워크를 제안합니다. CoDAR은 확산을 임베딩 공간에서 완전히 연속적으로 유지하면서, 강력하고 문맥 의존적인 이산화기(discretizer)를 학습합니다. 이 이산화기는 오토리거시브 트랜스포머 디코더로, 노이즈 제거된 임베딩 시퀀스에 대해 교차 어텐션을 수행하고 문맥화된 반올림을 통해 토큰으로 변환합니다. LM1B 및 OpenWebText 데이터셋에 대한 실험 결과, CoDAR은 잠재 확산 모델보다 생성 품질이 크게 향상되었으며, 강력한 이산적인 DLM과 경쟁력을 갖추는 것을 확인했습니다. 또한, 간단한 디코더 온도 조절 기능을 통해 유창성과 다양성 간의 균형을 조절할 수 있습니다.
We study why continuous diffusion language models (DLMs) have lagged behind discrete diffusion approaches despite their appealing continuous generative dynamics. Under a controlled token--recovery study, we identify token rounding, the final projection from denoised embeddings to tokens, as a primary bottleneck. Building on these insights, we propose CoDAR (Continuous Diffusion with Contextual AutoRegressive Decoder), a two--stage framework that keeps diffusion entirely continuous in an embedding space while learning a strong, context--conditional discretizer: an autoregressive Transformer decoder that cross--attends to the denoised embedding sequence and performs contextualized rounding to tokens. Experiments on LM1B and OpenWebText demonstrate that CoDAR substantially improves generation quality over latent diffusion and becomes competitive with strong discrete DLMs, while exposing a simple decoder--temperature knob to navigate the fluency--diversity trade off.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.