잔여 컨텍스트 확산 언어 모델
Residual Context Diffusion Language Models
확산 대규모 언어 모델(dLLM)은 순수하게 자기 회귀적인 언어 모델의 유망한 대안으로 부상했으며, 이는 여러 토큰을 병렬로 디코딩할 수 있기 때문입니다. 그러나 최첨단 블록 단위 dLLM은 "리마스킹" 메커니즘에 의존하며, 이는 가장 확신이 있는 토큰만 디코딩하고 나머지는 버려 계산 자원을 낭비합니다. 우리는 버려진 토큰에서 계산 자원을 재활용하는 것이 유익하다는 것을 보여줍니다. 왜냐하면 이러한 토큰은 후속 디코딩 반복에 유용한 문맥 정보를 포함하고 있기 때문입니다. 이러한 점을 고려하여, 우리는 버려진 토큰 표현을 문맥 잔차로 변환하여 다음 디노이징 단계에 다시 주입하는 모듈인 Residual Context Diffusion (RCD)을 제안합니다. RCD는 역전파와 관련된 메모리 병목 현상을 해결하기 위해 분리된 2단계 훈련 파이프라인을 사용합니다. 우리는 RCD 방법을 긴 CoT 추론(SDAR) 및 짧은 CoT 지시 따르기(LLaDA) 모델 모두에서 검증했습니다. 표준 dLLM을 RCD 방식으로 효율적으로 변환하는 데 약 10억 개의 토큰만 필요하다는 것을 보여줍니다. RCD는 다양한 벤치마크에서 최소한의 추가 계산 오버헤드로 정확도를 5~10점 향상시켜 최첨단 dLLM을 지속적으로 개선합니다. 특히, 가장 어려운 AIME 작업에서 RCD는 기본 정확도를 거의 두 배로 향상시키고, 동등한 정확도 수준에서 최대 4~5배 적은 디노이징 단계를 사용합니다.
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to purely autoregressive language models because they can decode multiple tokens in parallel. However, state-of-the-art block-wise dLLMs rely on a "remasking" mechanism that decodes only the most confident tokens and discards the rest, effectively wasting computation. We demonstrate that recycling computation from the discarded tokens is beneficial, as these tokens retain contextual information useful for subsequent decoding iterations. In light of this, we propose Residual Context Diffusion (RCD), a module that converts these discarded token representations into contextual residuals and injects them back for the next denoising step. RCD uses a decoupled two-stage training pipeline to bypass the memory bottlenecks associated with backpropagation. We validate our method on both long CoT reasoning (SDAR) and short CoT instruction following (LLaDA) models. We demonstrate that a standard dLLM can be efficiently converted to the RCD paradigm with merely ~1 billion tokens. RCD consistently improves frontier dLLMs by 5-10 points in accuracy with minimal extra computation overhead across a wide range of benchmarks. Notably, on the most challenging AIME tasks, RCD nearly doubles baseline accuracy and attains up to 4-5x fewer denoising steps at equivalent accuracy levels.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.