2601.04151v2 Jan 07, 2026 cs.CV

Apollo: 통합 멀티태스크 오디오-비디오 공동 생성 모델

Apollo: Unified Multi-Task Audio-Video Joint Generation

Chunyu Qiang
Chunyu Qiang
Citations: 55
h-index: 3
Jun Wang
Jun Wang
Citations: 48
h-index: 3
Yuxin Guo
Yuxin Guo
Citations: 6
h-index: 2
Yiran Wang
Yiran Wang
Citations: 32
h-index: 2
Xijuan Zeng
Xijuan Zeng
Citations: 33
h-index: 2
Feng Deng
Feng Deng
Citations: 81
h-index: 4

오디오-비디오 공동 생성 기술은 빠르게 발전해 왔지만, 여전히 해결해야 할 과제가 많이 남아 있습니다. 비상업적인 접근 방식은 오디오-비디오 동기화 불일치, 불량한 입술 모양-음성 정렬, 그리고 단일 모달리티의 성능 저하와 같은 문제를 겪으며, 이는 약한 오디오-비디오 상관 관계 모델링, 제한적인 일반화 능력, 그리고 부족한 고품질의 상세 캡션 데이터에서 비롯될 수 있습니다. 이러한 문제점을 해결하기 위해, 우리는 Apollo를 소개하고 모델 구조, 학습 전략, 그리고 데이터 큐레이션이라는 세 가지 측면을 심층적으로 분석합니다. 구조적으로, 우리는 통합된 DiT 블록과 Omni-Full 어텐션 메커니즘을 사용하는 단일 타워 설계를 채택하여, 강력한 오디오-비디오 정렬과 뛰어난 확장성을 달성합니다. 학습 측면에서, 우리는 랜덤 모달리티 마스킹을 통한 멀티태스크 공동 최적화와 다단계 커리큘럼을 적용하여, 강력한 표현력을 확보하고, 오디오-비디오 정렬된 세계 지식을 강화하며, 단일 모달리티의 성능 저하를 방지합니다. 데이터셋 측면에서, 우리는 상세 캡션을 포함하는 최초의 대규모 오디오-비디오 데이터셋을 제시하고, 수백만 개의 다양한, 고품질의, 엄격하게 정렬된 오디오-비디오-캡션 묶음을 자동으로 생성하고 필터링하는 새로운 데이터 생성 파이프라인을 소개합니다. 이러한 기반을 바탕으로, Apollo는 대규모 데이터셋으로 확장되어, 공동 및 단일 모달리티 환경에서 고품질의 의미론적 및 시간적으로 정렬된, 지시사항을 따르는 생성을 제공하며, 다양한 환경에서도 안정적인 성능을 보입니다. Apollo는 다양한 작업에서 기존 방법보다 훨씬 뛰어난 성능을 보이며, Veo 3와 비교 가능한 성능을 달성하여, 차세대 오디오-비디오 합성 기술을 위한 통합적이고 확장 가능한 경로를 제시합니다.

Original Abstract

Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Apollo and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Apollo scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.

4 Citations
0 Influential
2 Altmetric
14.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!