2602.18745v1 Feb 21, 2026 cs.CV

처음부터 멀티모달 기하학 데이터셋 합성 및 플로팅 코드를 통한 시각적 정렬 구현

Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code

Bohan Zeng
Bohan Zeng
Citations: 129
h-index: 7
Wentao Zhang
Wentao Zhang
Citations: 5
h-index: 1
H. Lin
H. Lin
Citations: 0
h-index: 0
Tianyi Bai
Tianyi Bai
Citations: 175
h-index: 4
Chen Chen
Chen Chen
Citations: 0
h-index: 0
Jiajun Zhang
Jiajun Zhang
Citations: 0
h-index: 0
Binhang Yuan
Binhang Yuan
Citations: 147
h-index: 6

멀티모달 기하학 추론은 모델이 시각적 다이어그램을 이해하는 동시에 구조화된 기호적 추론을 수행할 것을 요구하지만, 현재의 비전-언어 모델들은 제한된 학습 데이터와 취약한 시각-기호 정렬로 인해 복잡한 기하학적 구조를 다루는 데 어려움을 겪고 있다. 우리는 처음부터 복잡한 멀티모달 기하학 문제를 합성하기 위한 파이프라인을 제안하고 \textbf{GeoCode}라는 데이터셋을 구축한다. 이 파이프라인은 문제 생성을 기호적 시드 구성, 검증을 수반한 근거 기반 인스턴스화, 그리고 코드 기반 다이어그램 렌더링으로 분리하여 구조, 텍스트, 추론 및 이미지 전반에 걸친 일관성을 보장한다. 나아가 GeoCode에서 제공되는 플로팅 코드를 활용하여 코드 예측을 명시적인 정렬 목표로 도입함으로써, 시각적 이해를 지도 기반의 구조적 예측 작업으로 변환한다. GeoCode는 다단계 검증을 통해 수학적 정확성을 유지하면서도 기존 벤치마크에 비해 훨씬 더 높은 구조적 복잡성과 추론 난이도를 보여준다. 광범위한 실험을 통해 GeoCode로 학습된 모델이 여러 기하학 벤치마크에서 일관된 성능 향상을 달성함을 확인하였으며, 이는 데이터셋과 제안된 정렬 전략의 유효성을 모두 입증한다. 코드는 https://github.com/would1920/GeoCode에서 공개될 예정이다.

Original Abstract

Multimodal geometry reasoning requires models to jointly understand visual diagrams and perform structured symbolic inference, yet current vision--language models struggle with complex geometric constructions due to limited training data and weak visual--symbolic alignment. We propose a pipeline for synthesizing complex multimodal geometry problems from scratch and construct a dataset named \textbf{GeoCode}, which decouples problem generation into symbolic seed construction, grounded instantiation with verification, and code-based diagram rendering, ensuring consistency across structure, text, reasoning, and images. Leveraging the plotting code provided in GeoCode, we further introduce code prediction as an explicit alignment objective, transforming visual understanding into a supervised structured prediction task. GeoCode exhibits substantially higher structural complexity and reasoning difficulty than existing benchmarks, while maintaining mathematical correctness through multi-stage validation. Extensive experiments show that models trained on GeoCode achieve consistent improvements on multiple geometry benchmarks, demonstrating both the effectiveness of the dataset and the proposed alignment strategy. The code will be available at https://github.com/would1920/GeoCode.

0 Citations
0 Influential
23.5 Altmetric
117.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!