2604.10567v1 Apr 12, 2026 cs.CL

초기 결정이 중요합니다: 비자기회귀 확산 언어 모델에서의 근접성 편향과 초기 궤적 형성

Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models

Moontae Lee
Moontae Lee
Citations: 241
h-index: 7
Jiyeon Kim
Jiyeon Kim
Citations: 77
h-index: 3
Sungik Choi
Sungik Choi
Citations: 66
h-index: 4
Yongrae Jo
Yongrae Jo
Citations: 4
h-index: 1
Minjoon Seo
Minjoon Seo
Citations: 10
h-index: 2

확산 기반 언어 모델(dLLM)은 자기회귀 언어 모델의 유망한 대안으로 부상했으며, 병렬 토큰 생성 및 양방향 컨텍스트 모델링의 잠재력을 제공합니다. 그러나 이러한 유연성을 활용하여 완전한 비자기회귀 디코딩을 수행하는 것은 여전히 해결해야 할 과제이며, 특히 추론 및 계획 작업에서 더욱 그렇습니다. 본 연구에서는 시간 축을 따라 dLLM의 추론 역학을 체계적으로 분석하여 비자기회귀 디코딩을 조사합니다. 구체적으로, 우리는 신뢰도 기반 비자기회귀 생성에서 발생하는 근본적인 문제점을 발견했습니다. 이는 공간적으로 인접한 토큰에 집중하는 강한 근접성 편향에서 비롯됩니다. 이러한 국소적 의존성은 공간적 오류 전파를 유발하며, 결과적으로 전체 궤적은 초기 마스킹 위치에 크게 의존하게 됩니다. 이러한 통찰력을 바탕으로, 우리는 초기 토큰 선택을 안내하는 최소한의 개입 접근 방식을 제시합니다. 이 방식은 경량 플래너와 시퀀스 종료 온도 조절을 사용합니다. 우리는 다양한 추론 및 계획 작업에서 제안하는 방법을 철저히 평가했으며, 상당한 계산 오버헤드 없이 기존의 휴리스틱 기반 방법보다 전반적으로 큰 성능 향상을 관찰했습니다.

Original Abstract

Diffusion-based language models (dLLMs) have emerged as a promising alternative to autoregressive language models, offering the potential for parallel token generation and bidirectional context modeling. However, harnessing this flexibility for fully non-autoregressive decoding remains an open question, particularly for reasoning and planning tasks. In this work, we investigate non-autoregressive decoding in dLLMs by systematically analyzing its inference dynamics along the temporal axis. Specifically, we uncover an inherent failure mode in confidence-based non-autoregressive generation stemming from a strong proximity bias-the tendency for the denoising order to concentrate on spatially adjacent tokens. This local dependency leads to spatial error propagation, rendering the entire trajectory critically contingent on the initial unmasking position. Leveraging this insight, we present a minimal-intervention approach that guides early token selection, employing a lightweight planner and end-of-sequence temperature annealing. We thoroughly evaluate our method on various reasoning and planning tasks and observe substantial overall improvement over existing heuristic baselines without significant computational overhead.

2 Citations
1 Influential
3.5 Altmetric
21.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!