핵심에 집중: 자기 대비(Self-Contrast)를 통해 확산 거대 언어 모델(Diffusion Large Language Models) 강화
Focus on the Core: Empowering Diffusion Large Language Models by Self-Contrast
확산 거대 언어 모델(DLM)은 반복적인 노이즈 제거 방식 덕분에 전반적인 맥락 모델링에서 독특한 장점을 가지고 있습니다. 그러나 현재의 디코딩 전략은 이러한 능력을 충분히 활용하지 못하며, 일반적으로 맥락 내의 이질적인 정보 밀도를 간과하는 지역적인 선호도를 나타내어 생성 품질을 저하시킵니다. 이러한 한계점을 해결하기 위해, 우리는 정보 밀도가 높은 토큰(HD token)을 체계적으로 조사하고 다음과 같은 두 가지 주요 결과를 제시합니다. (1) HD 토큰에 대한 명시적인 조건 설정은 출력 품질을 크게 향상시키고, (2) HD 토큰은 초기 디코딩 경향을 보이며, 주변 토큰보다 빠르게 수렴합니다. 이러한 결과에 따라, 우리는 HD 토큰을 자기 대비 방식으로 활용하여 생성 과정을 안내하는, 학습이 필요 없는 디코딩 전략인 Focus on the Core (FoCore)를 제안합니다. FoCore는 HD 토큰을 일시적으로 마스킹하여 부정 샘플로 활용합니다. 또한, 우리는 FoCore의 효율적인 변형인 FoCore_Accelerate (FoCore_A)를 소개합니다. FoCore_A는 HD 토큰의 수렴을 감지하면, 로컬 컨텍스트 윈도우 내의 안정적인 후보 토큰에 대해 병렬 디코딩을 수행하여 생성 속도를 크게 향상시킵니다. 수학, 코드 및 논리 추론 벤치마크에 대한 광범위한 실험 결과, FoCore는 LLaDA와 Dream 백본 모두에서 생성 품질과 효율성을 지속적으로 향상시키는 것으로 나타났습니다. 예를 들어, HumanEval 데이터셋에서 FoCore는 표준 Classifier-Free Guidance에 비해 pass@1을 39.02에서 42.68로 향상시켰으며, FoCore-A는 디코딩 단계를 2.07배 줄이고, 샘플당 지연 시간을 20.76초에서 8.64초로 단축하여 (-58.4%) 상당한 속도 향상을 보였습니다.
The iterative denoising paradigm of Diffusion Large Language Models (DLMs) endows them with a distinct advantage in global context modeling. However, current decoding strategies fail to leverage this capability, typically exhibiting a local preference that overlooks the heterogeneous information density within the context, ultimately degrading generation quality. To address this limitation, we systematically investigate high-information-density (HD) tokens and present two key findings: (1) explicitly conditioning on HD tokens substantially improves output quality; and (2) HD tokens exhibit an early-decoding tendency, converging earlier than surrounding tokens. Motivated by these findings, we propose Focus on the Core \textbf{(FoCore)}, a training-free decoding strategy that utilizes HD tokens in a self-contrast manner, wherein HD tokens are temporarily remasked as negative samples, to guide generation. We further introduce FoCore\_Accelerate \textbf{(FoCore\_A)}, an efficient variant that, upon detecting HD token convergence, performs parallel decoding over stable candidates within a local context window, substantially accelerating generation. Extensive experiments on math, code and logical reasoning benchmarks demonstrate that FoCore consistently improves generation quality and efficiency across both LLaDA and Dream backbones. For instance, on HumanEval, FoCore improves pass@1 from 39.02 to 42.68 over standard Classifier-Free Guidance, while FoCore-A reduces the number of decoding steps by 2.07x and per-sample latency from 20.76s to 8.64s (-58.4\%).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.