합성 오디오-비디오 생성 모델은 물리학을 이해하는가?
Do Joint Audio-Video Generation Models Understand Physics?
합성 오디오-비디오 생성 모델은 빠른 속도로 전문가 수준의 품질에 접근하고 있으며, 이는 다음과 같은 핵심적인 질문을 제기합니다. 이러한 모델은 오디오-비디오의 물리학적 원리를 이해하는 것일까요, 아니면 현실 세계의 일관성을 위반하는 것처럼 보이는 합리적인 소리와 프레임을 단순히 생성하는 것일까요? 본 연구에서는 합성 오디오-비디오 생성 모델의 물리적 상식 능력을 평가하기 위한 벤치마크인 AV-Phys Bench를 소개합니다. AV-Phys Bench는 정적 상태, 이벤트 전환, 환경 전환의 세 가지 장면 카테고리에 걸쳐 모델을 테스트합니다. 이 벤치마크는 실제 장면에서 추출한 물리적 기반의 하위 범주와 함께, 의도적으로 물리적으로 일관되지 않은 오디오-비디오 동작을 요청하는 Anti-AV-Physics 프롬프트를 포함합니다. 각 생성 결과는 시각적 의미 준수, 오디오 의미 준수, 시각적 물리적 상식, 오디오 물리적 상식, 그리고 양방향 물리적 상식의 다섯 가지 측면에서 평가됩니다. 세 가지 독점 모델과 네 가지 오픈 소스 모델을 대상으로 실험한 결과, Seedance 2.0이 전반적으로 가장 우수한 성능을 보였지만, 모든 모델이 여전히 견고한 물리적 이해를 갖추고 있다고 보기 어렵습니다. 이벤트 기반 및 환경 기반 전환 시 성능이 크게 저하되었으며, 심지어 강력한 독점 시스템조차도 Anti-AV-Physics 프롬프트에 취약합니다. 또한, 다중 모드 언어 모델과 결정적인 음향 측정 도구를 결합하여 인간 평가와 유사한 순위를 제공하는 ReAct 스타일의 평가 도구인 AV-Phys Agent를 소개합니다. 본 연구의 결과는 합성 오디오-비디오 생성에서 양방향 물리적 일관성과 전환 기반 장면 역학이 중요한 과제임을 보여줍니다.
Joint audio-video generation models are rapidly approaching professional production quality, raising a central question: do they understand audio-visual physics, or merely generate plausible sounds and frames that violate real-world consistency? We introduce AV-Phys Bench, a benchmark for evaluating physical commonsense in joint audio-video generation. AV-Phys Bench tests models across three scene categories: Steady State, Event Transition, and Environment Transition. It covers physics-grounded subcategories drawn from real-world scenes, plus Anti-AV-Physics prompts that deliberately request physically inconsistent audio-video behavior. Each generation is evaluated along five dimensions: visual semantic adherence, audio semantic adherence, visual physical commonsense, audio physical commonsense, and cross-modal physical commonsense. Across three proprietary and four open-source models, we find that Seedance 2.0 performs best overall, but all models remain far from robust physical understanding. Performance drops sharply on event-driven and environment-driven transitions, and even strong proprietary systems collapse on Anti-AV-Physics prompts. We further introduce AV-Phys Agent, a ReAct-style evaluator that combines a multimodal language model with deterministic acoustic measurement tools, producing rankings that closely align with human ratings. Our results identify cross-modal physical consistency and transition-driven scene dynamics as key open challenges for joint audio-video generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.