내성적 확산 언어 모델
Introspective Diffusion Language Models
확산 언어 모델(DLM)은 병렬 생성을 가능하게 하지만, 여전히 품질 면에서 오토리그레시브(AR) 모델에 뒤쳐지는 경향이 있습니다. 이러한 격차는 '내성적 일관성'의 부족에서 비롯됩니다. AR 모델은 자체 생성 결과와 일치하는 반면, DLM은 종종 그렇지 않습니다. 우리는 모델이 이전에 생성한 토큰을 얼마나 수용하는지를 측정하는 '내성적 수용률'이라는 지표를 정의했습니다. 이를 통해 AR 학습이 구조적으로 유리한 이유를 밝혀냈습니다. 즉, 인과적 마스킹과 로짓 시프트는 암묵적으로 내성적 일관성을 강화합니다. 이러한 관찰에 기반하여, 우리는 확산 방식의 병렬 디코딩을 유지하면서 AR 학습의 내성적 일관성을 상속하는 새로운 패러다임인 '내성적 확산 언어 모델(I-DLM)'을 제안합니다. I-DLM은 모델이 이전에 생성한 토큰을 검증하는 동시에 새로운 토큰을 생성하는 '내성적 스트라이드 디코딩(ISD)'이라는 새로운 알고리즘을 사용합니다. 시스템 관점에서, 우리는 AR에서 상속한 최적화를 기반으로 I-DLM 추론 엔진을 구축하고, 고정 배치 스케줄러를 추가하여 성능을 향상시켰습니다. 현재까지 알려진 바로는, I-DLM은 동일 규모의 AR 모델과 동등한 수준의 품질을 제공하면서, 15개의 벤치마크에서 기존 DLM보다 모델 품질과 실제 서비스 효율성 모두에서 뛰어난 성능을 보입니다. I-DLM은 AIME-24에서 69.6점, LiveCodeBench-v6에서 45.7점을 기록하여, 각각 LLaDA-2.1-mini (16B)보다 26점과 15점 이상 높은 성능을 보입니다. 품질 외에도, I-DLM은 대규모 동시 처리 수요를 충족하도록 설계되었으며, 기존 최고 성능의 DLM보다 약 3배 높은 처리량을 제공합니다.
Diffusion language models promise parallel generation, yet still lag behind autoregressive (AR) models in quality. We stem this gap to a failure of introspective consistency: AR models agree with their own generations, while DLMs often do not. We define the introspective acceptance rate, which measures whether a model accepts its previously generated tokens. This reveals why AR training has a structural advantage: causal masking and logit shifting implicitly enforce introspective consistency. Motivated by this observation, we introduce Introspective Diffusion Language Model (I-DLM), a paradigm that retains diffusion-style parallel decoding while inheriting the introspective consistency of AR training. I-DLM uses a novel introspective strided decoding (ISD) algorithm, which enables the model to verify previously generated tokens while advancing new ones in the same forward pass. From a systems standpoint, we build I-DLM inference engine on AR-inherited optimizations and further customize it with a stationary-batch scheduler. To the best of our knowledge, I-DLM is the first DLM to match the quality of its same-scale AR counterpart while outperforming prior DLMs in both model quality and practical serving efficiency across 15 benchmarks. It reaches 69.6 on AIME-24 and 45.7 on LiveCodeBench-v6, exceeding LLaDA-2.1-mini (16B) by more than 26 and 15 points, respectively. Beyond quality, I-DLM is designed for the growing demand of large-concurrency serving, delivering about 3x higher throughput than prior state-of-the-art DLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.