시간을 초월하는 울림: 비디오-오디오 생성 모델에서 길이 일반화 성능 향상
Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models
비디오와 오디오 간의 다중 모드 정렬은 데이터 부족과 텍스트 설명과 프레임 단위 비디오 정보 간의 불일치로 인해 특히 어려운 과제입니다. 본 연구에서는 다중 모드에서 오디오 생성의 확장 문제를 해결하고, 짧은 데이터로 학습된 모델이 테스트 시 더 긴 데이터에 대해 얼마나 잘 일반화되는지 조사합니다. 이 문제를 해결하기 위해, 우리는 최첨단 비디오-오디오 모델을 확장한 다중 모드 계층적 네트워크(MMHNet)을 제안합니다. 우리의 접근 방식은 계층적 방법과 비-인과 Mamba를 통합하여 장시간 오디오 생성을 지원합니다. 제안된 방법은 5분 이상의 장시간 오디오 생성을 크게 향상시킵니다. 또한, 더 긴 데이터를 학습하지 않고도 짧은 데이터로 학습하여 장시간 데이터를 테스트하는 것이 비디오-오디오 생성 작업에서 가능하다는 것을 입증합니다. 실험 결과, 제안된 방법이 장시간 비디오-오디오 벤치마크에서 뛰어난 성능을 보이며, 기존의 비디오-오디오 작업들을 능가하는 것을 확인했습니다. 또한, 기존의 비디오-오디오 방법들이 장시간 생성을 어려워하는 반면, 우리의 모델은 5분 이상의 오디오 생성이 가능함을 보여줍니다.
Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.