AVGen-Bench: 텍스트-오디오-비디오 생성의 다층 평가를 위한 작업 기반 벤치마크
AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
텍스트-오디오-비디오(T2AV) 생성 기술은 미디어 제작의 핵심 인터페이스로 빠르게 발전하고 있지만, 그 평가 방법은 여전히 분산되어 있습니다. 기존 벤치마크는 주로 오디오와 비디오를 개별적으로 평가하거나, 조잡한 임베딩 유사성을 활용하여 현실적인 프롬프트가 요구하는 세밀한 전반적인 정확성을 제대로 반영하지 못합니다. 본 논문에서는 11가지 실제 시나리오를 기반으로 고품질 프롬프트를 제공하는 T2AV 생성 벤치마크인 AVGen-Bench를 소개합니다. 포괄적인 평가를 지원하기 위해, 경량화된 전문 모델과 멀티모달 대규모 언어 모델(MLLM)을 결합한 다층 평가 프레임워크를 제안합니다. 이를 통해 인식 품질부터 세밀한 의미론적 제어 가능성까지 다양한 측면을 평가할 수 있습니다. 우리의 평가는 뛰어난 오디오-비디오 심미성과 취약한 의미론적 신뢰성 간의 뚜렷한 격차를 보여줍니다. 여기에는 텍스트 렌더링 실패, 음성 일관성 부족, 물리적 추론 오류, 그리고 음악 음높이 제어의 전반적인 문제 등이 포함됩니다. 코드 및 벤치마크 자료는 http://aka.ms/avgenbench 에서 제공됩니다.
Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.