VDE 벤치마크: 이미지 편집 모델의 시각 문서 수정 능력 평가
VDE Bench: Evaluating The Capability of Image Editing Models to Modify Visual Documents
최근 몇 년 동안, 멀티모달 이미지 편집 모델은 상당한 발전을 이루어 사용자가 자연어 인터페이스를 통해 시각 콘텐츠를 유연하고 상호적으로 조작할 수 있게 되었습니다. 그러나 여전히 연구가 부족한 중요한 분야는 시각 문서 이미지 편집으로, 이는 이미지 내 텍스트 콘텐츠를 수정하면서 원본 텍스트 스타일과 배경 맥락을 충실하게 유지하는 것을 포함합니다. 기존의 접근 방식, 예를 들어 AnyText, GlyphControl, TextCtrl 등은 주로 영어 환경 및 상대적으로 텍스트 레이아웃이 단순한 문서에 초점을 맞추고 있으며, 따라서 밀도가 높고 구조적으로 복잡한 문서 또는 중국어와 같은 라틴 문자가 아닌 스크립트를 제대로 처리하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 다국어 및 복잡한 시각 문서 편집 작업에 대한 이미지 편집 모델을 평가하기 위해 특별히 설계된 엄격하게 인간이 주석을 달고 평가한 벤치마크인 extbf{V}isual extbf{D}oc extbf{E}dit Bench(VDE Bench)를 제안합니다. 이 벤치마크는 영어 및 중국어로 작성된 밀도가 높은 텍스트 문서를 포함하는 고품질 데이터 세트로 구성되어 있으며, 여기에는 학술 논문, 포스터, 프레젠테이션 슬라이드, 시험 자료 및 신문이 포함됩니다. 또한, 우리는 OCR 파싱 수준에서 편집 성능을 체계적으로 정량화하는 분리된 평가 프레임워크를 도입하여 텍스트 수정 정확도를 세밀하게 평가할 수 있도록 합니다. 이 벤치마크를 기반으로, 우리는 대표적인 최첨단 이미지 편집 모델에 대한 종합적인 평가를 수행했습니다. 수동 검증 결과, 인간의 판단과 자동 평가 지표 간에 높은 일관성이 있음을 확인했습니다. VDE Bench는 다국어 및 밀도가 높은 텍스트 시각 문서에 대한 이미지 편집 모델을 평가하는 첫 번째 체계적인 벤치마크입니다.
In recent years, multimodal image editing models have achieved substantial progress, enabling users to manipulate visual content through natural language in a flexible and interactive manner. Nevertheless, an important yet insufficiently explored research direction remains visual document image editing, which involves modifying textual content within images while faithfully preserving the original text style and background context. Existing approaches, including AnyText, GlyphControl, and TextCtrl, predominantly focus on English-language scenarios and documents with relatively sparse textual layouts, thereby failing to adequately address dense, structurally complex documents or non-Latin scripts such as Chinese. To bridge this gap, we propose \textbf{V}isual \textbf{D}oc \textbf{E}dit Bench(VDE Bench), a rigorously human-annotated and evaluated benchmark specifically designed to assess image editing models on multilingual and complex visual document editing tasks. The benchmark comprises a high-quality dataset encompassing densely textual documents in both English and Chinese, including academic papers, posters, presentation slides, examination materials, and newspapers. Furthermore, we introduce a decoupled evaluation framework that systematically quantifies editing performance at the OCR parsing level, enabling fine-grained assessment of text modification accuracy. Based on this benchmark, we conduct a comprehensive evaluation of representative state-of-the-art image editing models. Manual verification demonstrates a strong consistency between human judgments and automated evaluation metrics. VDE Bench constitutes the first systematic benchmark for evaluating image editing models on multilingual and densely textual visual documents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.