2605.07061v1 May 08, 2026 cs.SD

합성 오디오-비디오 생성 모델은 물리학을 이해하는가?

Do Joint Audio-Video Generation Models Understand Physics?

Mingwei Xu
Mingwei Xu
Citations: 4
h-index: 1
Zijun Cui
Zijun Cui
Citations: 30
h-index: 2
Xiulong Liu
Xiulong Liu
Citations: 646
h-index: 12
Haochen Fang
Haochen Fang
Citations: 53
h-index: 2
Jiageng Liu
Jiageng Liu
Citations: 16
h-index: 2
Zexin Xu
Zexin Xu
Citations: 96
h-index: 2
Weiguo Pian
Weiguo Pian
Citations: 300
h-index: 9
Shijian Deng
Shijian Deng
Citations: 166
h-index: 7
Fei Du
Fei Du
Citations: 23
h-index: 1
Chenming Ge
Chenming Ge
Citations: 0
h-index: 0
Yapeng Tian
Yapeng Tian
Citations: 173
h-index: 6

합성 오디오-비디오 생성 모델은 빠른 속도로 전문가 수준의 품질에 접근하고 있으며, 이는 다음과 같은 핵심적인 질문을 제기합니다. 이러한 모델은 오디오-비디오의 물리학적 원리를 이해하는 것일까요, 아니면 현실 세계의 일관성을 위반하는 것처럼 보이는 합리적인 소리와 프레임을 단순히 생성하는 것일까요? 본 연구에서는 합성 오디오-비디오 생성 모델의 물리적 상식 능력을 평가하기 위한 벤치마크인 AV-Phys Bench를 소개합니다. AV-Phys Bench는 정적 상태, 이벤트 전환, 환경 전환의 세 가지 장면 카테고리에 걸쳐 모델을 테스트합니다. 이 벤치마크는 실제 장면에서 추출한 물리적 기반의 하위 범주와 함께, 의도적으로 물리적으로 일관되지 않은 오디오-비디오 동작을 요청하는 Anti-AV-Physics 프롬프트를 포함합니다. 각 생성 결과는 시각적 의미 준수, 오디오 의미 준수, 시각적 물리적 상식, 오디오 물리적 상식, 그리고 양방향 물리적 상식의 다섯 가지 측면에서 평가됩니다. 세 가지 독점 모델과 네 가지 오픈 소스 모델을 대상으로 실험한 결과, Seedance 2.0이 전반적으로 가장 우수한 성능을 보였지만, 모든 모델이 여전히 견고한 물리적 이해를 갖추고 있다고 보기 어렵습니다. 이벤트 기반 및 환경 기반 전환 시 성능이 크게 저하되었으며, 심지어 강력한 독점 시스템조차도 Anti-AV-Physics 프롬프트에 취약합니다. 또한, 다중 모드 언어 모델과 결정적인 음향 측정 도구를 결합하여 인간 평가와 유사한 순위를 제공하는 ReAct 스타일의 평가 도구인 AV-Phys Agent를 소개합니다. 본 연구의 결과는 합성 오디오-비디오 생성에서 양방향 물리적 일관성과 전환 기반 장면 역학이 중요한 과제임을 보여줍니다.

Original Abstract

Joint audio-video generation models are rapidly approaching professional production quality, raising a central question: do they understand audio-visual physics, or merely generate plausible sounds and frames that violate real-world consistency? We introduce AV-Phys Bench, a benchmark for evaluating physical commonsense in joint audio-video generation. AV-Phys Bench tests models across three scene categories: Steady State, Event Transition, and Environment Transition. It covers physics-grounded subcategories drawn from real-world scenes, plus Anti-AV-Physics prompts that deliberately request physically inconsistent audio-video behavior. Each generation is evaluated along five dimensions: visual semantic adherence, audio semantic adherence, visual physical commonsense, audio physical commonsense, and cross-modal physical commonsense. Across three proprietary and four open-source models, we find that Seedance 2.0 performs best overall, but all models remain far from robust physical understanding. Performance drops sharply on event-driven and environment-driven transitions, and even strong proprietary systems collapse on Anti-AV-Physics prompts. We further introduce AV-Phys Agent, a ReAct-style evaluator that combines a multimodal language model with deterministic acoustic measurement tools, producing rankings that closely align with human ratings. Our results identify cross-modal physical consistency and transition-driven scene dynamics as key open challenges for joint audio-video generation.

0 Citations
0 Influential
6 Altmetric
30.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!