2601.17761v1 Jan 25, 2026 cs.LG

AR-Omni: 모든 종류의 입/출력을 위한 통합형 자기회귀 모델

AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation

Lei Zhang
Lei Zhang
Citations: 13,151
h-index: 3
Dongjie Cheng
Dongjie Cheng
Citations: 2
h-index: 1
Yongqi Li
Yongqi Li
Citations: 1,173
h-index: 13
Liqiang Nie
Liqiang Nie
Citations: 199
h-index: 8
Wenjie Li
Wenjie Li
Citations: 604
h-index: 8
Runyang You
Runyang You
Citations: 20
h-index: 3
Ruifeng Yuan
Ruifeng Yuan
Citations: 82
h-index: 5
Wenjie Wang
Wenjie Wang
Citations: 0
h-index: 0

실제 세계의 인식 및 상호작용은 본질적으로 다중 모달이며, 언어뿐만 아니라 시각 및 음성도 포함합니다. 이는 다중 모드 입력 및 출력을 지원하는 "Omni" 다중 모드 언어 모델(MLLM) 개발의 동기가 됩니다. 다양한 Omni MLLM 모델이 등장했지만, 대부분의 기존 시스템은 여전히 다중 모드 생성을 위해 추가적인 전문 구성 요소를 사용하며, 이는 통합된 학습 및 추론의 단순성을 제한합니다. 단일 토큰 스트림, 단일 다음 토큰 예측 목표, 단일 디코더를 사용하는 자기회귀(AR) 모델링은 텍스트 영역에서 우아하고 확장 가능한 기반입니다. 이러한 점에 착안하여, 저희는 전문가 디코더 없이 자기회귀 방식으로 작동하는 통합된 모든 종류의 입/출력 모델인 AR-Omni를 제안합니다. AR-Omni는 자기회귀 텍스트 및 이미지 생성, 그리고 스트리밍 음성 생성을 단일 Transformer 디코더 하에서 지원합니다. 또한, 저희는 통합된 자기회귀 모델링에서 발생하는 세 가지 실질적인 문제를 해결합니다. 첫째, 작업 인지 손실 재가중치를 통해 모드 불균형 문제를 해결합니다. 둘째, 이미지 토큰에 대한 가벼운 토큰 수준의 지각적 정렬 손실을 사용하여 시각적 충실도를 향상시킵니다. 셋째, 유한 상태 디코딩 메커니즘을 통해 안정성과 창의성 간의 균형을 맞춥니다. 실험 결과, AR-Omni는 세 가지 모드에서 뛰어난 품질을 달성하며, 음성 생성 시 0.88의 실시간 성능을 보입니다.

Original Abstract

Real-world perception and interaction are inherently multimodal, encompassing not only language but also vision and speech, which motivates the development of "Omni" MLLMs that support both multimodal inputs and multimodal outputs. While a sequence of omni MLLMs has emerged, most existing systems still rely on additional expert components to achieve multimodal generation, limiting the simplicity of unified training and inference. Autoregressive (AR) modeling, with a single token stream, a single next-token objective, and a single decoder, is an elegant and scalable foundation in the text domain. Motivated by this, we present AR-Omni, a unified any-to-any model in the autoregressive paradigm without any expert decoders. AR-Omni supports autoregressive text and image generation, as well as streaming speech generation, all under a single Transformer decoder. We further address three practical issues in unified AR modeling: modality imbalance via task-aware loss reweighting, visual fidelity via a lightweight token-level perceptual alignment loss for image tokens, and stability-creativity trade-offs via a finite-state decoding mechanism. Empirically, AR-Omni achieves strong quality across three modalities while remaining real-time, achieving a 0.88 real-time factor for speech generation.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!