Apollo: 통합 멀티태스크 오디오-비디오 공동 생성 모델
Apollo: Unified Multi-Task Audio-Video Joint Generation
오디오-비디오 공동 생성 기술은 빠르게 발전해 왔지만, 여전히 해결해야 할 과제가 많이 남아 있습니다. 비상업적인 접근 방식은 오디오-비디오 동기화 불일치, 불량한 입술 모양-음성 정렬, 그리고 단일 모달리티의 성능 저하와 같은 문제를 겪으며, 이는 약한 오디오-비디오 상관 관계 모델링, 제한적인 일반화 능력, 그리고 부족한 고품질의 상세 캡션 데이터에서 비롯될 수 있습니다. 이러한 문제점을 해결하기 위해, 우리는 Apollo를 소개하고 모델 구조, 학습 전략, 그리고 데이터 큐레이션이라는 세 가지 측면을 심층적으로 분석합니다. 구조적으로, 우리는 통합된 DiT 블록과 Omni-Full 어텐션 메커니즘을 사용하는 단일 타워 설계를 채택하여, 강력한 오디오-비디오 정렬과 뛰어난 확장성을 달성합니다. 학습 측면에서, 우리는 랜덤 모달리티 마스킹을 통한 멀티태스크 공동 최적화와 다단계 커리큘럼을 적용하여, 강력한 표현력을 확보하고, 오디오-비디오 정렬된 세계 지식을 강화하며, 단일 모달리티의 성능 저하를 방지합니다. 데이터셋 측면에서, 우리는 상세 캡션을 포함하는 최초의 대규모 오디오-비디오 데이터셋을 제시하고, 수백만 개의 다양한, 고품질의, 엄격하게 정렬된 오디오-비디오-캡션 묶음을 자동으로 생성하고 필터링하는 새로운 데이터 생성 파이프라인을 소개합니다. 이러한 기반을 바탕으로, Apollo는 대규모 데이터셋으로 확장되어, 공동 및 단일 모달리티 환경에서 고품질의 의미론적 및 시간적으로 정렬된, 지시사항을 따르는 생성을 제공하며, 다양한 환경에서도 안정적인 성능을 보입니다. Apollo는 다양한 작업에서 기존 방법보다 훨씬 뛰어난 성능을 보이며, Veo 3와 비교 가능한 성능을 달성하여, 차세대 오디오-비디오 합성 기술을 위한 통합적이고 확장 가능한 경로를 제시합니다.
Audio-video joint generation has progressed rapidly, yet substantial challenges still remain. Non-commercial approaches still suffer audio-visual asynchrony, poor lip-speech alignment, and unimodal degradation, which can be stemmed from weak audio-visual correspondence modeling, limited generalization, and scarce high-quality dense-caption data. To address these issues, we introduce Apollo and delve into three axes--model architecture, training strategy, and data curation. Architecturally, we adopt a single-tower design with unified DiT blocks and an Omni-Full Attention mechanism, achieving tight audio-visual alignment and strong scalability. Training-wise, we adopt a progressive multitask regime--random modality masking to joint optimization across tasks, and a multistage curriculum, yielding robust representations, strengthening A-V aligned world knowledge, and preventing unimodal collapse. For datasets, we present the first large-scale audio-video dataset with dense captions, and introduce a novel automated data-construction pipeline which annotates and filters millions of diverse, high-quality, strictly aligned audio-video-caption triplets. Building on this, Apollo scales to large datasets, delivering high-fidelity, semantically and temporally aligned, instruction-following generation in both joint and unimodal settings while generalizing robustly to out-of-distribution scenarios. Across tasks, it substantially outperforms prior methods by a large margin and achieves performance comparable to Veo 3, offering a unified, scalable path toward next-generation audio-video synthesis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.