2601.13228v1 Jan 19, 2026 cs.CL

자기회귀 모델이 모든 순서의 생성에서 확산 모델과 경쟁한다

Autoregressive Models Rival Diffusion Models at ANY-ORDER Generation

Yisen Wang
Yisen Wang
Citations: 1,047
h-index: 15
Tianqi Du
Tianqi Du
Citations: 265
h-index: 6
Lizhe Fang
Lizhe Fang
Citations: 54
h-index: 2
Weijie Yang
Weijie Yang
Citations: 24
h-index: 3
Chenheng Zhang
Chenheng Zhang
Citations: 52
h-index: 2
Zeming Wei
Zeming Wei
Citations: 29
h-index: 3
Yifei Wang
Yifei Wang
Citations: 687
h-index: 11

확산 언어 모델은 모든 순서의 생성과 양방향 조건부 처리를 가능하게 하여, 텍스트 채우기, 재작성 및 자기 수정과 같은 작업에 매력적인 유연성을 제공합니다. 그러나, 확산 모델의 수식 (단일 단계 의존성을 통해 시퀀스의 일부를 다른 부분에서 예측)은 모델링 깊이를 제한하며, 종종 자기회귀 (AR) 모델보다 낮은 샘플 품질과 안정성을 초래합니다. 이를 해결하기 위해, 우리는 자기회귀 모델링을 기본으로 재검토하고, 확산 방식의 학습을 구조화된 다중 그룹 예측 프로세스로 재구성합니다. 우리는 Any-order Any-subset Autoregressive (A3) 모델을 제안합니다. A3 모델은 표준 AR 분해를 임의의 토큰 그룹과 생성 순서로 확장하는 일반화된 프레임워크입니다. A3 모델은 AR 모델의 확률적 엄밀성과 다층 의존성 모델링을 유지하면서, 확산 모델의 병렬 및 양방향 생성에 대한 유연성을 상속합니다. 우리는 A3 모델을 두 개의 스트림으로 구성된 어텐션 아키텍처와, 사전 학습된 AR 모델을 모든 순서의 예측으로 점진적으로 전환하는 적응 전략을 통해 구현했습니다. 질문 답변, 상식 추론 및 스토리 채우기 실험 결과, A3 모델은 확산 기반 모델보다 성능이 우수하며, 유연한 디코딩 기능을 유지합니다. 이 연구는 유연하고 효율적이며 새로운 언어 모델링 패러다임을 위한 통합적인 접근 방식을 제시합니다.

Original Abstract

Diffusion language models enable any-order generation and bidirectional conditioning, offering appealing flexibility for tasks such as infilling, rewriting, and self-correction. However, their formulation-predicting one part of a sequence from another within a single-step dependency-limits modeling depth and often yields lower sample quality and stability than autoregressive (AR) models. To address this, we revisit autoregressive modeling as a foundation and reformulate diffusion-style training into a structured multi-group prediction process. We propose Any-order Any-subset Autoregressive modeling (A3), a generalized framework that extends the standard AR factorization to arbitrary token groups and generation orders. A3 preserves the probabilistic rigor and multi-layer dependency modeling of AR while inheriting diffusion models' flexibility for parallel and bidirectional generation. We implement A3 through a two-stream attention architecture and a progressive adaptation strategy that transitions pretrained AR models toward any-order prediction. Experiments on question answering, commonsense reasoning, and story infilling demonstrate that A3 outperforms diffusion-based models while maintaining flexible decoding. This work offers a unified approach for a flexible, efficient, and novel language modeling paradigm.

1 Citations
0 Influential
7.5 Altmetric
38.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!