2604.16272v2 Apr 17, 2026 cs.CV

VEFX-Bench: 범용 비디오 편집 및 시각 효과를 위한 종합 벤치마크

VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

Qi Zheng
Qi Zheng
Citations: 27
h-index: 3
Xiangbo Gao
Xiangbo Gao
Citations: 235
h-index: 8
Ming Yang
Ming Yang
Citations: 125
h-index: 6
Qingyu Yin
Qingyu Yin
Citations: 27
h-index: 3
Bangya Liu
Bangya Liu
University of Wisconsin-Madison
Citations: 38
h-index: 3
Xinghao Chen
Xinghao Chen
Citations: 112
h-index: 5
Jiongze Yu
Jiongze Yu
Citations: 34
h-index: 3
Mingyang Wu
Mingyang Wu
Citations: 51
h-index: 4
Sicong Jiang
Sicong Jiang
McGill University
Citations: 152
h-index: 6
Siyuan Yang
Siyuan Yang
Citations: 2
h-index: 1
Jie Yang
Jie Yang
Citations: 22
h-index: 3
Haozhi Wang
Haozhi Wang
Citations: 42
h-index: 2
Jiayi Zhang
Jiayi Zhang
Citations: 8
h-index: 1
J. Yang
J. Yang
Citations: 14
h-index: 1
Zihan Wang
Zihan Wang
Citations: 35
h-index: 2
Zhengzhong Tu
Zhengzhong Tu
Citations: 67
h-index: 4

인공지능 기반 비디오 제작이 점점 더 현실화됨에 따라, 생성되거나 촬영된 영상을 전문적인 요구 사항에 맞게 개선하기 위해 지침 기반 비디오 편집은 필수적인 요소가 되었습니다. 그러나 이 분야는 여전히 대규모의 인간이 주석을 달은 데이터셋과 편집 시스템을 비교할 수 있는 표준화된 평가 도구가 부족합니다. 기존의 자료는 규모가 작거나, 편집된 결과물이 누락되어 있거나, 인간의 품질 레이블이 없다는 한계가 있으며, 현재의 평가는 종종 비용이 많이 드는 수동 검사 또는 편집 품질에 특화되지 않은 일반적인 시각-언어 모델 평가자에 의존합니다. 우리는 9개의 주요 편집 카테고리와 32개의 하위 카테고리에 걸쳐 5,049개의 비디오 편집 예제를 포함하는 인간이 주석을 단 데이터셋인 VEFX-Dataset을 소개합니다. 각 예제는 Instruction Following(지침 준수), Rendering Quality(렌더링 품질), Edit Exclusivity(편집의 독창성)라는 세 가지 독립적인 차원을 기준으로 레이블링되었습니다. VEFX-Dataset을 기반으로, 비디오 편집 품질 평가를 위해 특별히 설계된 보상 모델인 VEFX-Reward를 제안합니다. VEFX-Reward는 원본 비디오, 편집 지침, 편집된 비디오를 함께 처리하고, 순위 회귀를 통해 각 차원의 품질 점수를 예측합니다. 또한, 편집 시스템의 표준화된 비교를 위한 300개의 선별된 비디오-프롬프트 쌍으로 구성된 벤치마크인 VEFX-Bench를 공개합니다. 실험 결과, VEFX-Reward는 일반적인 VLM 평가자 및 기존 보상 모델보다 표준 IQA/VQA 지표 및 그룹별 선호도 평가 모두에서 인간의 판단과 더 높은 일치성을 보입니다. VEFX-Reward를 평가 도구로 사용하여 대표적인 상용 및 오픈 소스 비디오 편집 시스템을 벤치마킹한 결과, 현재 모델에서 시각적 타당성, 지침 준수 및 편집의 지역성 간에 지속적인 격차가 존재한다는 것을 확인했습니다. 프로젝트 페이지는 https://xiangbogaobarry.github.io/VEFX-Bench/ 입니다.

Original Abstract

As AI-assisted video creation becomes increasingly practical, instruction-guided video editing has become essential for refining generated or captured footage to meet professional requirements. Yet the field still lacks both a large-scale human-annotated dataset with complete editing examples and a standardized evaluator for comparing editing systems. Existing resources are limited by small scale, missing edited outputs, or the absence of human quality labels, while current evaluation often relies on expensive manual inspection or generic vision-language model judges that are not specialized for editing quality. We introduce VEFX-Dataset, a human-annotated dataset containing 5,049 video editing examples across 9 major editing categories and 32 subcategories, each labeled along three decoupled dimensions: Instruction Following, Rendering Quality, and Edit Exclusivity. Building on VEFX-Dataset, we propose VEFX-Reward, a reward model designed specifically for video editing quality assessment. VEFX-Reward jointly processes the source video, the editing instruction, and the edited video, and predicts per-dimension quality scores via ordinal regression. We further release VEFX-Bench, a benchmark of 300 curated video-prompt pairs for standardized comparison of editing systems. Experiments show that VEFX-Reward aligns more strongly with human judgments than generic VLM judges and prior reward models on both standard IQA/VQA metrics and group-wise preference evaluation. Using VEFX-Reward as an evaluator, we benchmark representative commercial and open-source video editing systems, revealing a persistent gap between visual plausibility, instruction following, and edit locality in current models. Our project page is https://xiangbogaobarry.github.io/VEFX-Bench/.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!