초기 결정이 중요합니다: 비자기회귀 확산 언어 모델에서의 근접성 편향과 초기 궤적 형성
Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models
확산 기반 언어 모델(dLLM)은 자기회귀 언어 모델의 유망한 대안으로 부상했으며, 병렬 토큰 생성 및 양방향 컨텍스트 모델링의 잠재력을 제공합니다. 그러나 이러한 유연성을 활용하여 완전한 비자기회귀 디코딩을 수행하는 것은 여전히 해결해야 할 과제이며, 특히 추론 및 계획 작업에서 더욱 그렇습니다. 본 연구에서는 시간 축을 따라 dLLM의 추론 역학을 체계적으로 분석하여 비자기회귀 디코딩을 조사합니다. 구체적으로, 우리는 신뢰도 기반 비자기회귀 생성에서 발생하는 근본적인 문제점을 발견했습니다. 이는 공간적으로 인접한 토큰에 집중하는 강한 근접성 편향에서 비롯됩니다. 이러한 국소적 의존성은 공간적 오류 전파를 유발하며, 결과적으로 전체 궤적은 초기 마스킹 위치에 크게 의존하게 됩니다. 이러한 통찰력을 바탕으로, 우리는 초기 토큰 선택을 안내하는 최소한의 개입 접근 방식을 제시합니다. 이 방식은 경량 플래너와 시퀀스 종료 온도 조절을 사용합니다. 우리는 다양한 추론 및 계획 작업에서 제안하는 방법을 철저히 평가했으며, 상당한 계산 오버헤드 없이 기존의 휴리스틱 기반 방법보다 전반적으로 큰 성능 향상을 관찰했습니다.
Diffusion-based language models (dLLMs) have emerged as a promising alternative to autoregressive language models, offering the potential for parallel token generation and bidirectional context modeling. However, harnessing this flexibility for fully non-autoregressive decoding remains an open question, particularly for reasoning and planning tasks. In this work, we investigate non-autoregressive decoding in dLLMs by systematically analyzing its inference dynamics along the temporal axis. Specifically, we uncover an inherent failure mode in confidence-based non-autoregressive generation stemming from a strong proximity bias-the tendency for the denoising order to concentrate on spatially adjacent tokens. This local dependency leads to spatial error propagation, rendering the entire trajectory critically contingent on the initial unmasking position. Leveraging this insight, we present a minimal-intervention approach that guides early token selection, employing a lightweight planner and end-of-sequence temperature annealing. We thoroughly evaluate our method on various reasoning and planning tasks and observe substantial overall improvement over existing heuristic baselines without significant computational overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.