2604.25584v1 Apr 28, 2026 cs.AI

DualFact+: 절차적 비디오 이해를 위한 다중 모드 사실 검증 프레임워크

DualFact+: A Multimodal Fact Verification Framework for Procedural Video Understanding

Simon Ostermann
Simon Ostermann
Citations: 588
h-index: 11
Cennet Oguz
Cennet Oguz
Citations: 309
h-index: 6
Yasser Hamidullah
Yasser Hamidullah
Citations: 59
h-index: 4
Josef van Genabith
Josef van Genabith
Citations: 6,385
h-index: 41

본 논문에서는 절차적 비디오 캡션을 위한 이중 계층, 다중 모드 사실성 평가 프레임워크인 DualFact를 소개합니다. DualFact는 사실 정확성을 추상적인 의미 역할(예: 동작, 재료, 도구, 위치)을 포착하는 개념적 사실과, 비디오 내에서 그 역할이 구체적으로 어떻게 구현되는지를 포착하는 맥락적 사실로 분리합니다. 완전하고 역할 일관성을 갖춘 평가를 지원하기 위해 DualFact는 암묵적 인자 보강(VIA)과 대조 사실 집합을 포함합니다. DualFact는 두 가지 모드로 구현됩니다. 텍스트 증거에 대한 사실을 검증하는 DualFact-T와, 비디오 기반 시각적 증거에 대한 사실을 검증하는 DualFact-V입니다. YouCook3-Fact 및 CraftBench-Fact 데이터셋에 대한 실험 결과, 최첨단 다중 모드 언어 모델은 유창한 캡션을 생성하지만, 종종 사실적으로 불완전하며, 체계적인 누락과 역할 수준의 불일치가 발생합니다. DualFact는 표준 지표보다 인간의 사실성 판단과 더 높은 상관관계를 가지며, 특히 맥락적 사실의 경우 캡션만으로 평가할 때 환각 현상을 과대평가한다는 것을 보여줍니다. 전반적으로 DualFact는 해석 가능하고 인간과 일관된 평가 프로토콜을 제공하며, 표면적인 유창성을 넘어 다중 모드 사실성 근거화에 존재하는 지속적인 과제를 강조합니다.

Original Abstract

We introduce DualFact, a dual-layer, multimodal factuality evaluation framework for procedural video captioning. DualFact separates factual correctness into conceptual facts, capturing abstract semantic roles (e.g., Action, Ingredient, Tool, Location), and contextual facts, capturing their grounded predicate-argument realizations in video. To support complete and role-consistent evaluation, DualFact incorporates implicit argument augmentation (VIA) and contrastive fact sets. We instantiate DualFact in two modes: DualFact-T, which verifies facts against textual evidence, and DualFact-V, which verifies facts against video-grounded visual evidence. Experiments on YouCook3-Fact and CraftBench-Fact show that state-of-the-art multimodal language models produce fluent but often factually incomplete captions, with systematic omissions and role-level inconsistencies. DualFact correlates more strongly with human factuality judgments than standard metrics, particularly for contextual facts, and reveals that caption-only evaluation overestimates hallucinations compared to video-grounded verification. Overall, DualFact offers an interpretable and human-aligned evaluation protocol that highlights persistent challenges in multimodal factual grounding, extending beyond surface-level fluency.

0 Citations
0 Influential
20.5 Altmetric
102.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!