확산 언어 모델을 위한 가역적 확산 디코딩
Reversible Diffusion Decoding for Diffusion Language Models
확산 언어 모델은 블록 단위 디코딩을 통해 병렬 토큰 생성을 가능하게 하지만, 그들의 비가역적인 특성은 최적 이하의 맥락에서 역확산 과정이 더 이상 진행되지 못하는 정체 현상으로 이어질 수 있습니다. 본 논문에서는 블록 단위 확산 생성에 가역성을 도입하는 디코딩 프레임워크인 가역적 확산 디코딩(RDD)을 제안합니다. RDD는 정체를 역 프로세스의 상태 의존적인 실패로 감지하고, 저장된 모델 상태를 활용하여 불필요한 재계산을 피하면서 이전 블록으로 효율적으로 되돌릴 수 있도록 합니다. RDD는 반복적인 실패 경로를 방지하기 위해, 신뢰도를 기반으로 불확실한 토큰을 선택적으로 재초기화하여 신뢰할 수 있는 맥락을 유지합니다. 이러한 가역적인 구조는 디코딩 과정이 초기 오류에서 회복하고, 확산 기반 생성의 병렬 효율성을 유지할 수 있도록 합니다. 실험 결과, RDD는 기본적인 모델보다 생성의 안정성과 품질을 향상시키면서도 최소한의 계산 오버헤드를 갖는다는 것을 보여줍니다.
Diffusion language models enable parallel token generation through block-wise decoding, but their irreversible commitments can lead to stagnation, where the reverse diffusion process fails to make further progress under a suboptimal context.We propose Reversible Diffusion Decoding (RDD), a decoding framework that introduces reversibility into block-wise diffusion generation. RDD detects stagnation as a state-dependent failure of the reverse process and enables efficient backtracking to earlier blocks without recomputation via cached model states. To avoid repeated failure trajectories, RDD applies confidence-guided re-masking to selectively reinitialize uncertain tokens while preserving reliable context.This reversible formulation allows decoding to recover from early commitment errors while maintaining the parallel efficiency of diffusion-based generation. Experiments show that RDD improves generation robustness and quality over baselines with minimal computational overhead.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.