오디오 플라밍고 넥스트: 음성, 환경 소리 및 음악을 위한 차세대 오픈 오디오-언어 모델
Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music
본 논문에서는 오디오 플라밍고 시리즈의 차세대 모델인 오디오 플라밍고 넥스트(AF-Next)를 소개합니다. AF-Next는 음성, 환경 소리 및 음악에 대한 이해 및 추론 능력을 향상시키기 위해 설계되었습니다. Audio Flamingo 3와 비교하여, AF-Next는 다음과 같은 개선 사항을 제공합니다. (i) 다양한 오디오 이해 작업에서 정확도를 크게 향상시키는 더욱 강력한 기반 오디오-언어 모델, (ii) 기존의 학술 벤치마크를 넘어서는 대규모 오디오 이해 및 추론 데이터 구축을 위한 확장 가능한 전략, (iii) 최대 30분까지의 긴 복잡한 오디오 입력 지원, (iv) 'Temporal Audio Chain-of-Thought'라는 새로운 추론 패러다임. 이는 긴 오디오 내의 중간 추론 단계를 명시적으로 타임스탬프에 연결하여 세밀한 시간 정렬 및 향상된 해석 가능성을 제공합니다. 이러한 기능을 구현하기 위해, 우리는 먼저 Audio Flamingo 3에 대한 체계적인 분석을 수행하여 오디오 이해 및 추론의 주요 한계를 파악했습니다. 그런 다음, 이러한 한계를 해결하고 기존의 AudioSkills-XL, LongAudio-XL, AF-Think 및 AF-Chat 데이터 세트를 확장하기 위해 1백만 시간 이상의 새로운 대규모 데이터 세트를 큐레이션하고 확장했습니다. AF-Next는 사전 훈련, 중간 훈련 및 사후 훈련 단계를 포함하는 커리큘럼 기반 전략을 사용하여 학습되었습니다. 20개의 오디오 이해 및 추론 벤치마크, 특히 어려운 긴 오디오 작업을 포함한 광범위한 실험 결과, AF-Next는 유사한 크기의 오픈 모델보다 훨씬 뛰어난 성능을 보이며, 훨씬 더 큰 오픈 가중치 및 폐쇄 모델과도 경쟁력이 있거나 능가하는 것으로 나타났습니다. 벤치마크 성능 외에도, AF-Next는 뛰어난 실용성을 보이며, 예측하지 못한 작업에도 잘 적용되어 견고성과 일반화 능력을 입증합니다. AF-Next의 모든 데이터, 코드 및 방법론을 공개하며, AF-Next-Instruct, AF-Next-Think 및 AF-Next-Captioner를 포함한 3가지 변형을 오픈 소스로 제공합니다.
We present Audio Flamingo Next (AF-Next), the next-generation and most capable large audio-language model in the Audio Flamingo series, designed to advance understanding and reasoning over speech, environmental sounds and music. Compared to Audio Flamingo 3, AF-Next introduces: (i) a stronger foundational audio-language model that significantly improves accuracy across diverse audio understanding tasks; (ii) scalable strategies for constructing large-scale audio understanding and reasoning data beyond existing academic benchmarks; (iii) support for long and complex audio inputs up to 30 minutes; and (iv) Temporal Audio Chain-of-Thought, a new reasoning paradigm that explicitly grounds intermediate reasoning steps to timestamps in long audio, enabling fine-grained temporal alignment and improved interpretability. To enable these capabilities, we first conduct a systematic analysis of Audio Flamingo 3 to identify key gaps in audio understanding and reasoning. We then curate and scale new large-scale datasets totaling over 1 million hours to address these limitations and expand the existing AudioSkills-XL, LongAudio-XL, AF-Think and AF-Chat datasets. AF-Next is trained using a curriculum-based strategy spanning pre-training, mid-training and post-training stages. Extensive experiments across 20 audio understanding and reasoning benchmarks, including challenging long-audio tasks, show that AF-Next outperforms similarly sized open models by large margins and remains highly competitive with and sometimes surpasses, much larger open-weight and closed models. Beyond benchmark performance, AF-Next exhibits strong real-world utility and transfers well to unseen tasks, highlighting its robustness and generalization ability. In addition to all data, code and methods, we open-source 3 variants of AF-Next, including AF-Next-Instruct, AF-Next-Think and AF-Next-Captioner.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.