VidAudio-Bench: 네 가지 오디오 범주에 대한 V2A 및 VT2A 생성 성능 평가 벤치마크
VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories
비디오-오디오(V2A) 생성은 몰입형 멀티미디어 경험에 필수적이지만, 그 평가는 아직 충분히 연구되지 않았습니다. 기존 벤치마크는 일반적으로 다양한 오디오 유형을 하나의 프로토콜로 평가하여, 서로 다른 오디오 범주의 세부적인 요구 사항을 간과합니다. 이러한 문제점을 해결하기 위해, 우리는 V2A 평가를 위한 다중 작업 벤치마크인 VidAudio-Bench를 제안합니다. VidAudio-Bench는 다음과 같은 네 가지 주요 특징을 갖습니다: (1) 광범위한 적용 범위: 효과음, 음악, 음성, 노래 등 네 가지 대표적인 오디오 범주를 V2A 및 비디오-텍스트-오디오(VT2A) 설정 모두에서 포함합니다. (2) 광범위한 평가: 1,634개의 비디오-텍스트 쌍으로 구성되어 있으며, 11개의 최첨단 생성 모델을 평가합니다. (3) 포괄적인 지표: 오디오 품질, 비디오-오디오 일관성, 텍스트-오디오 일관성을 체계적으로 평가하기 위해 13개의 작업별, 참조 없는 지표를 도입합니다. (4) 인간 평가와의 일치: 모든 지표를 주관적 연구를 통해 검증하여 인간의 선호도와 높은 일관성을 보여줍니다. 실험 결과는 현재의 V2A 모델이 효과음과 비교하여 음성 및 노래 생성에서 성능이 저조하다는 것을 보여줍니다. 또한, VT2A 결과는 지시 따르기와 시각적으로 기반한 생성 사이의 근본적인 긴장을 더욱 강조합니다. 더 강력한 시각적 조건은 비디오-오디오 정렬을 향상시키지만, 의도된 오디오 범주를 생성하는 데 어려움을 초래할 수 있습니다. 이러한 결과는 VidAudio-Bench를 V2A 시스템을 진단하기 위한 포괄적이고 확장 가능한 프레임워크로 확립하고, 다중 모달 오디오 생성에 대한 새로운 통찰력을 제공합니다.
Video-to-Audio (V2A) generation is essential for immersive multimedia experiences, yet its evaluation remains underexplored. Existing benchmarks typically assess diverse audio types under a unified protocol, overlooking the fine-grained requirements of distinct audio categories. To address this gap, we propose VidAudio-Bench, a multi-task benchmark for V2A evaluation with four key features: (1) Broad Coverage: It encompasses four representative audio categories - sound effects, music, speech, and singing - under both V2A and Video-Text-to-Audio (VT2A) settings. (2) Extensive Evaluation: It comprises 1,634 video-text pairs and benchmarks 11 state-of-the-art generation models. (3) Comprehensive Metrics: It introduces 13 task-specific, reference-free metrics to systematically assess audio quality, video-audio consistency, and text-audio consistency. (4) Human Alignment: It validates all metrics through subjective studies, demonstrating strong consistency with human preferences. Experimental results reveal that current V2A models perform poorly in speech and singing compared to sound effects. Our VT2A results further highlight a fundamental tension between instruction following and visually grounded generation: stronger visual conditioning improves video-audio alignment, but often at the cost of generating the intended audio category. These findings establish VidAudio-Bench as a comprehensive and scalable framework for diagnosing V2A systems and provide new insights into multimodal audio generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.