2602.20981v1 Feb 24, 2026 cs.CV

시간을 초월하는 울림: 비디오-오디오 생성 모델에서 길이 일반화 성능 향상

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Christian Simon
Christian Simon
Citations: 29
h-index: 3
Masato Ishii
Masato Ishii
Citations: 195
h-index: 5
Koichi Saito
Koichi Saito
Citations: 41
h-index: 3
Akio Hayakawa
Akio Hayakawa
Citations: 288
h-index: 7
D. Shim
D. Shim
Citations: 199
h-index: 6
Shuyang Cui
Shuyang Cui
Citations: 9
h-index: 2
Shusuke Takahashi
Shusuke Takahashi
Citations: 1,010
h-index: 16
Takashi Shibuya
Takashi Shibuya
Sony
Citations: 983
h-index: 16
Yuki Mitsufuji
Yuki Mitsufuji
Citations: 37
h-index: 2
Wei-Yao Wang
Wei-Yao Wang
Citations: 3
h-index: 1
Zhi-Wei Zhong
Zhi-Wei Zhong
Citations: 127
h-index: 6

비디오와 오디오 간의 다중 모드 정렬은 데이터 부족과 텍스트 설명과 프레임 단위 비디오 정보 간의 불일치로 인해 특히 어려운 과제입니다. 본 연구에서는 다중 모드에서 오디오 생성의 확장 문제를 해결하고, 짧은 데이터로 학습된 모델이 테스트 시 더 긴 데이터에 대해 얼마나 잘 일반화되는지 조사합니다. 이 문제를 해결하기 위해, 우리는 최첨단 비디오-오디오 모델을 확장한 다중 모드 계층적 네트워크(MMHNet)을 제안합니다. 우리의 접근 방식은 계층적 방법과 비-인과 Mamba를 통합하여 장시간 오디오 생성을 지원합니다. 제안된 방법은 5분 이상의 장시간 오디오 생성을 크게 향상시킵니다. 또한, 더 긴 데이터를 학습하지 않고도 짧은 데이터로 학습하여 장시간 데이터를 테스트하는 것이 비디오-오디오 생성 작업에서 가능하다는 것을 입증합니다. 실험 결과, 제안된 방법이 장시간 비디오-오디오 벤치마크에서 뛰어난 성능을 보이며, 기존의 비디오-오디오 작업들을 능가하는 것을 확인했습니다. 또한, 기존의 비디오-오디오 방법들이 장시간 생성을 어려워하는 반면, 우리의 모델은 5분 이상의 오디오 생성이 가능함을 보여줍니다.

Original Abstract

Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.

2 Citations
0 Influential
8 Altmetric
42.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!