2604.10905v1 Apr 13, 2026 cs.SD

오디오 플라밍고 넥스트: 음성, 환경 소리 및 음악을 위한 차세대 오픈 오디오-언어 모델

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

M. Shoeybi
M. Shoeybi
Citations: 14,368
h-index: 43
Bryan Catanzaro
Bryan Catanzaro
Citations: 3,801
h-index: 29
Arushi Goel
Arushi Goel
Citations: 518
h-index: 8
Sreyan Ghosh
Sreyan Ghosh
Citations: 49
h-index: 4
Wei Ping
Wei Ping
Citations: 2,959
h-index: 19
Kaousheik Jayakumar
Kaousheik Jayakumar
Citations: 2
h-index: 1
Dinesh Manocha
Dinesh Manocha
Citations: 28
h-index: 3
Lasha Koroshinadze
Lasha Koroshinadze
Citations: 45
h-index: 2
Nishit Anand
Nishit Anand
University of Maryland College Park
Citations: 78
h-index: 5
Zhifeng Kong
Zhifeng Kong
Citations: 679
h-index: 10
Siddharth Gururani
Siddharth Gururani
Citations: 1,243
h-index: 15
Jaehyeon Kim
Jaehyeon Kim
Citations: 307
h-index: 3
Aya Aljafari
Aya Aljafari
Citations: 255
h-index: 1
Sungwon Kim
Sungwon Kim
Citations: 99
h-index: 3
R. Duraiswami
R. Duraiswami
Citations: 12,044
h-index: 57
Ming-Yu Liu
Ming-Yu Liu
Citations: 26
h-index: 3
Sang-gil Lee
Sang-gil Lee
Citations: 284
h-index: 7
C. Yang
C. Yang
Citations: 23
h-index: 2

본 논문에서는 오디오 플라밍고 시리즈의 차세대 모델인 오디오 플라밍고 넥스트(AF-Next)를 소개합니다. AF-Next는 음성, 환경 소리 및 음악에 대한 이해 및 추론 능력을 향상시키기 위해 설계되었습니다. Audio Flamingo 3와 비교하여, AF-Next는 다음과 같은 개선 사항을 제공합니다. (i) 다양한 오디오 이해 작업에서 정확도를 크게 향상시키는 더욱 강력한 기반 오디오-언어 모델, (ii) 기존의 학술 벤치마크를 넘어서는 대규모 오디오 이해 및 추론 데이터 구축을 위한 확장 가능한 전략, (iii) 최대 30분까지의 긴 복잡한 오디오 입력 지원, (iv) 'Temporal Audio Chain-of-Thought'라는 새로운 추론 패러다임. 이는 긴 오디오 내의 중간 추론 단계를 명시적으로 타임스탬프에 연결하여 세밀한 시간 정렬 및 향상된 해석 가능성을 제공합니다. 이러한 기능을 구현하기 위해, 우리는 먼저 Audio Flamingo 3에 대한 체계적인 분석을 수행하여 오디오 이해 및 추론의 주요 한계를 파악했습니다. 그런 다음, 이러한 한계를 해결하고 기존의 AudioSkills-XL, LongAudio-XL, AF-Think 및 AF-Chat 데이터 세트를 확장하기 위해 1백만 시간 이상의 새로운 대규모 데이터 세트를 큐레이션하고 확장했습니다. AF-Next는 사전 훈련, 중간 훈련 및 사후 훈련 단계를 포함하는 커리큘럼 기반 전략을 사용하여 학습되었습니다. 20개의 오디오 이해 및 추론 벤치마크, 특히 어려운 긴 오디오 작업을 포함한 광범위한 실험 결과, AF-Next는 유사한 크기의 오픈 모델보다 훨씬 뛰어난 성능을 보이며, 훨씬 더 큰 오픈 가중치 및 폐쇄 모델과도 경쟁력이 있거나 능가하는 것으로 나타났습니다. 벤치마크 성능 외에도, AF-Next는 뛰어난 실용성을 보이며, 예측하지 못한 작업에도 잘 적용되어 견고성과 일반화 능력을 입증합니다. AF-Next의 모든 데이터, 코드 및 방법론을 공개하며, AF-Next-Instruct, AF-Next-Think 및 AF-Next-Captioner를 포함한 3가지 변형을 오픈 소스로 제공합니다.

Original Abstract

We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.

0 Citations
0 Influential
28.5 Altmetric
142.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!