2604.06079v1 Apr 07, 2026 cs.CV

이중 자기 일관성 강화 학습을 통한 과학 그래픽 프로그램 합성

Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

Wenqiao Zhang
Wenqiao Zhang
Citations: 10
h-index: 1
Lijun Wu
Lijun Wu
Citations: 2,107
h-index: 9
Tianwei Lin
Tianwei Lin
Citations: 148
h-index: 5
Honglin Lin
Honglin Lin
Citations: 208
h-index: 8
Zheng Liu
Zheng Liu
Citations: 132
h-index: 6
Juekai Lin
Juekai Lin
Citations: 15
h-index: 2
Yun Zhu
Yun Zhu
Citations: 1
h-index: 1
Sijing Li
Sijing Li
Citations: 110
h-index: 3
Xiaoyang Wang
Xiaoyang Wang
Citations: 30
h-index: 3

그래픽 프로그램 합성은 시각 데이터를 해석하고 편집하는 데 중요한 역할을 하며, 정적 시각 정보를 편집 가능한 TikZ 코드로 변환하는 데 효과적으로 활용될 수 있습니다. TikZ는 프로그래밍 유연성 덕분에 과학 다이어그램의 사실상 표준이지만, 엄격한 공간 정밀도가 요구되기 때문에 다중 모드 대규모 언어 모델에게는 상당한 어려움을 야기합니다. 현재 진행 상황은 주로 두 가지 문제로 인해 제한됩니다. (1) 데이터 품질 격차: 기존의 이미지-TikZ 데이터셋은 종종 엄격한 실행 가능성과 신뢰할 수 있는 시각적 정렬을 제공하지 못합니다. (2) 평가 격차: 구조적 정확성과 시각적 충실도를 모두 평가할 수 있는 벤치마크가 부족합니다. 이러한 문제를 해결하기 위해, 우리는 다음과 같은 특징을 가진 폐쇄 루프 프레임워크를 제시합니다. SciTikZ-230K는 당사에서 개발한 실행 중심 데이터 엔진을 통해 수집된 11개의 다양한 과학 분야를 포괄하는 대규모 고품질 데이터셋입니다. SciTikZ-Bench는 기본적인 기하학적 구조부터 복잡한 계층적 다이어그램에 이르기까지 다양한 측면을 포괄하는 다면적인 벤치마크로, 시각적 충실도와 구조적 논리를 모두 평가합니다. 또한, 시각-코드 최적화 방법론의 범위를 더욱 넓히기 위해, Round-Trip Verification을 사용하여 비정형 코드를 제재하고 전반적인 자기 일관성을 향상시키는 새로운 이중 자기 일관성 강화 학습 최적화 패러다임을 도입했습니다. 이러한 요소들을 바탕으로, 저희가 학습한 모델 SciTikZer-8B는 최첨단 성능을 달성했으며, Gemini-2.5-Pro와 같은 독점 모델 및 Qwen3-VL-235B-A22B-Instruct와 같은 대규모 모델보다 일관되게 우수한 성능을 보였습니다.

Original Abstract

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!