2603.24575v1 Mar 25, 2026 cs.CV

VFIG: 비전-언어 모델을 활용한 SVG 복잡한 그림 벡터화

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Jaemin Cho
Jaemin Cho
Allen Institute for AI
Citations: 3,615
h-index: 27
Ranjay Krishna
Ranjay Krishna
Citations: 853
h-index: 18
Zixian Ma
Zixian Ma
Citations: 772
h-index: 13
Qi He
Qi He
Citations: 17
h-index: 3
Xunmei Liu
Xunmei Liu
Citations: 16
h-index: 1
Hammaad Memon
Hammaad Memon
Citations: 0
h-index: 0
Ziang Li
Ziang Li
Citations: 35
h-index: 3
Jason Ren
Jason Ren
Citations: 14
h-index: 2
Dan Weld
Dan Weld
Citations: 94
h-index: 3

확장 가능한 벡터 그래픽(SVG)은 정밀한 해상도 독립성과 유연한 의미 기반 편집 기능을 제공하여 기술 일러스트레이션 및 디지털 디자인에 필수적인 형식입니다. 그러나 실제로는 원본 벡터 소스 파일이 자주 손실되거나 접근 불가능한 경우가 많아, 수정하거나 확장하기 어려운 "평면" 래스터화된 버전(예: PNG 또는 JPEG)만 남게 됩니다. 이러한 그림을 수동으로 재구성하는 것은 매우 노동 집약적인 과정이며, 원래의 기하학적 의도를 복원하려면 전문적인 지식이 필요합니다. 이러한 격차를 해소하기 위해, 우리는 복잡하고 고품질의 그림을 SVG로 변환하는 데 사용되는 비전-언어 모델인 VFIG를 제안합니다. 이 작업은 본질적으로 데이터 기반이지만, 기존 데이터 세트는 일반적으로 규모가 작고 전문적인 다이어그램의 복잡성을 반영하지 못합니다. 우리는 이를 해결하기 위해 VFIG-DATA라는 대규모 데이터 세트를 도입했는데, 이는 실제 연구 논문의 그림과 절차적으로 생성된 다이어그램을 조합하여 66,000개의 고품질 그림-SVG 쌍으로 구성되어 있습니다. SVG가 반복적인 기본 요소와 계층적인 지역 구조로 구성되어 있다는 점을 인식하고, 우리는 원자적 기본 요소를 학습하기 위한 지도 미세 조정(SFT)으로 시작하여 전체 다이어그램의 충실도, 레이아웃 일관성 및 위상적 특이 사례를 최적화하기 위해 강화 학습(RL)을 적용하는 세분화된 학습 커리큘럼을 도입했습니다. 마지막으로, 우리는 복잡한 그림의 구조적 무결성을 측정하도록 설계된 새로운 지표를 포함하는 포괄적인 평가 도구인 VFIG-BENCH를 소개합니다. VFIG는 오픈 소스 모델 중에서 최첨단 성능을 달성했으며, GPT-5.2와 동등한 성능을 보이며, VFIG-BENCH에서 VLM-Judge 점수가 0.829입니다.

Original Abstract

Scalable Vector Graphics (SVG) are an essential format for technical illustration and digital design, offering precise resolution independence and flexible semantic editability. In practice, however, original vector source files are frequently lost or inaccessible, leaving only "flat" rasterized versions (e.g., PNG or JPEG) that are difficult to modify or scale. Manually reconstructing these figures is a prohibitively labor-intensive process, requiring specialized expertise to recover the original geometric intent. To bridge this gap, we propose VFIG, a family of Vision-Language Models trained for complex and high-fidelity figure-to-SVG conversion. While this task is inherently data-driven, existing datasets are typically small-scale and lack the complexity of professional diagrams. We address this by introducing VFIG-DATA, a large-scale dataset of 66K high-quality figure-SVG pairs, curated from a diverse mix of real-world paper figures and procedurally generated diagrams. Recognizing that SVGs are composed of recurring primitives and hierarchical local structures, we introduce a coarse-to-fine training curriculum that begins with supervised fine-tuning (SFT) to learn atomic primitives and transitions to reinforcement learning (RL) refinement to optimize global diagram fidelity, layout consistency, and topological edge cases. Finally, we introduce VFIG-BENCH, a comprehensive evaluation suite with novel metrics designed to measure the structural integrity of complex figures. VFIG achieves state-of-the-art performance among open-source models and performs on par with GPT-5.2, achieving a VLM-Judge score of 0.829 on VFIG-BENCH.

0 Citations
0 Influential
13.5 Altmetric
67.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!