2604.08540v1 Apr 09, 2026 cs.CV

AVGen-Bench: 텍스트-오디오-비디오 생성의 다층 평가를 위한 작업 기반 벤치마크

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

Qi Dai
Qi Dai
Citations: 104
h-index: 6
Yifan Yang
Yifan Yang
Citations: 75
h-index: 6
Lili Qiu
Lili Qiu
Citations: 2,071
h-index: 19
Yuqing Yang
Yuqing Yang
Citations: 2,165
h-index: 19
Zeyuan Lai
Zeyuan Lai
Citations: 2
h-index: 1
Zhening Xing
Zhening Xing
Citations: 202
h-index: 4
Chong Luo
Chong Luo
Citations: 254
h-index: 4
Ziwei Zhou
Ziwei Zhou
Citations: 50
h-index: 2
Rui Wang
Rui Wang
Citations: 1,943
h-index: 9

텍스트-오디오-비디오(T2AV) 생성 기술은 미디어 제작의 핵심 인터페이스로 빠르게 발전하고 있지만, 그 평가 방법은 여전히 분산되어 있습니다. 기존 벤치마크는 주로 오디오와 비디오를 개별적으로 평가하거나, 조잡한 임베딩 유사성을 활용하여 현실적인 프롬프트가 요구하는 세밀한 전반적인 정확성을 제대로 반영하지 못합니다. 본 논문에서는 11가지 실제 시나리오를 기반으로 고품질 프롬프트를 제공하는 T2AV 생성 벤치마크인 AVGen-Bench를 소개합니다. 포괄적인 평가를 지원하기 위해, 경량화된 전문 모델과 멀티모달 대규모 언어 모델(MLLM)을 결합한 다층 평가 프레임워크를 제안합니다. 이를 통해 인식 품질부터 세밀한 의미론적 제어 가능성까지 다양한 측면을 평가할 수 있습니다. 우리의 평가는 뛰어난 오디오-비디오 심미성과 취약한 의미론적 신뢰성 간의 뚜렷한 격차를 보여줍니다. 여기에는 텍스트 렌더링 실패, 음성 일관성 부족, 물리적 추론 오류, 그리고 음악 음높이 제어의 전반적인 문제 등이 포함됩니다. 코드 및 벤치마크 자료는 http://aka.ms/avgenbench 에서 제공됩니다.

Original Abstract

Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!