TMD-Bench: 음악-댄스 공동 생성 시스템을 위한 다층 평가 패러다임
TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation
음성-시각 통합 생성 기술은 가상 제작 및 인터랙티브 미디어 분야에서 빠르게 중요성이 높아지고 있습니다. 그러나 일반적인 음성-영상 합성에서 음악-댄스 공동 생성으로 넘어갈 때, 과제가 훨씬 더 복잡해집니다. 음악의 리듬, 프레이징, 강세가 미세한 시간 해상도로 안무 동작을 제어해야 하며, 이러한 리듬 간의 결합은 현재 평가 방식에서 사용되는 단일 모드 지표나 일반적인 음성-시각 일관성 점수로 제대로 반영되지 않습니다. 본 논문에서는 텍스트 기반 음악-댄스 공동 생성 시스템을 평가하기 위한 벤치마크인 TMD-Bench를 소개합니다. TMD-Bench는 시스템의 단일 모드 생성 품질, 명령어 준수 여부, 그리고 모달 간 리듬 정렬 정도를 평가합니다. 이 벤치마크는 계산 가능한 물리적 지표와 지각적인 다중 모드 판단을 통합하며, 큐레이션된 리듬 정렬 음악-댄스 데이터셋과 정교한 음악 캡셔닝 모델을 기반으로 합니다. TMD-Bench를 통해 다음과 같은 사실을 밝혀냈습니다. (i) Veo 3 및 Sora 2와 같은 최신 상용 음성-시각 모델은 고품질의 음악과 영상을 생성하지만, 리듬 간의 결합은 여전히 일관성이 떨어지며 개선의 여지가 있습니다. (ii) 리듬 정렬 데이터로 학습된 통합 기본 모델인 RhyJAM은 경쟁력 있는 비트 수준의 동기화를 달성하면서도 우수한 단일 모드 충실도를 유지합니다. 이는 리듬 및 운동적 일관성을 명시적으로 최적화하는 차세대 음악-댄스 모델을 개발할 수 있는 가능성을 제시합니다.
Unified audio-visual generation is rapidly gaining industrial and creative relevance, enabling applications in virtual production and interactive media. However, when moving from general audio-video synthesis to music-dance co-generation, the task becomes substantially harder: musical rhythm, phrasing, and accents must drive choreographic motion at fine temporal resolution, and such rhythmic coupling is not captured by unimodal metrics or generic audiovisual consistency scores used in current evaluation practice. We introduce TMD-Bench, a benchmark for text-driven music-dance co-generation that assesses systems across unimodal generation quality, instruction adherence, and cross-modal rhythmic alignment. The benchmark integrates computable physical metrics with perceptual multimodal judgments, and is supported by a curated rhythm-aligned music-dance dataset and a fine-grained Music Captioner for structured music semantics. TMD-Bench further reveals that (i) modern commercial audio-visual models, such as Veo 3 and Sora 2, produce high-quality music and video, while rhythmic coupling remains less consistently optimized and leaves room for improvement, and (ii) our unified baseline RhyJAM trained on rhythm-aligned data achieves competitive beat-level synchronization while maintaining competitive unimodal fidelity. This presents prospects for building next-generation music-dance models that explicitly optimize rhythmic and kinetic coherence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.