R^2-dLLM: 공간-시간적 중복성 감소를 통한 확산 대규모 언어 모델의 가속화
$R^2$-dLLM: Accelerating Diffusion Large Language Models via Spatio-Temporal Redundancy Reduction
확산 대규모 언어 모델(dLLM)은 병렬 토큰 예측을 가능하게 하여 자기 회귀 생성의 유망한 대안으로 부상했습니다. 그러나 실제 dLLM 디코딩은 여전히 높은 추론 지연 시간을 겪으며, 이는 배포를 제한합니다. 본 연구에서는 이러한 비효율성의 상당 부분이 디코딩 과정에서 반복적으로 발생하는 중복성에서 비롯된다는 것을 확인했습니다. 이러한 중복성은 신뢰도 클러스터 및 위치 불확실성으로 인한 공간적 중복성과, 이미 안정화된 예측을 반복적으로 마스킹하는 것으로 인한 시간적 중복성을 포함합니다. 이러한 현상에 착안하여, 우리는 추론 및 학습 관점 모두에서 디코딩 중복성을 줄이는 통합 프레임워크인 R^2-dLLM을 제안합니다. 추론 단계에서, 우리는 학습 과정이 필요 없는 디코딩 규칙을 도입하여 지역적 신뢰도와 토큰 예측을 결합하고, 시간적으로 안정적인 토큰을 최종 결정하여 불필요한 디코딩 단계를 방지합니다. 또한, 우리는 효율적인 디코딩 경로에 모델을 맞추고 수동으로 조정된 임계값에 대한 의존성을 줄이는 중복성을 고려한 지도 미세 조정 파이프라인을 제안합니다. 실험 결과, R^2-dLLM은 기존 디코딩 전략에 비해 최대 75%까지 디코딩 단계를 줄이는 동시에 다양한 모델 및 작업에서 경쟁력 있는 생성 품질을 유지하는 것으로 나타났습니다. 이러한 결과는 디코딩 중복성이 dLLM의 핵심적인 병목 현상이며, 이를 명시적으로 줄이면 상당한 실질적인 효율성 향상을 얻을 수 있음을 입증합니다.
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive generation by enabling parallel token prediction. However, practical dLLM decoding still suffers from high inference latency, which limits deployment. In this work, we observe that a substantial part of this inefficiency comes from recurring redundancy in the decoding process, including spatial redundancy caused by confidence clusters and positional ambiguity, and temporal redundancy caused by repeatedly remasking predictions that have already stabilized. Motivated by these patterns, we propose $R^2$-dLLM, a unified framework for reducing decoding redundancy from both inference and training perspectives. At inference time, we introduce training-free decoding rules that aggregate local confidence and token predictions, and finalize temporally stable tokens to avoid redundant decoding steps. We further propose a redundancy-aware supervised fine-tuning pipeline that aligns the model with efficient decoding trajectories and reduces reliance on manually tuned thresholds. Experiments demonstrate that $R^2$-dLLM consistently reduces the number of decoding steps by up to 75% compared to existing decoding strategies, while maintaining competitive generation quality across different models and tasks. These results validate that decoding redundancy is a central bottleneck in dLLMs, and that explicitly reducing it yields substantial practical efficiency gains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.