이중 자기 일관성 강화 학습을 통한 과학 그래픽 프로그램 합성
Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning
그래픽 프로그램 합성은 시각 데이터를 해석하고 편집하는 데 중요한 역할을 하며, 정적 시각 정보를 편집 가능한 TikZ 코드로 변환하는 데 효과적으로 활용될 수 있습니다. TikZ는 프로그래밍 유연성 덕분에 과학 다이어그램의 사실상 표준이지만, 엄격한 공간 정밀도가 요구되기 때문에 다중 모드 대규모 언어 모델에게는 상당한 어려움을 야기합니다. 현재 진행 상황은 주로 두 가지 문제로 인해 제한됩니다. (1) 데이터 품질 격차: 기존의 이미지-TikZ 데이터셋은 종종 엄격한 실행 가능성과 신뢰할 수 있는 시각적 정렬을 제공하지 못합니다. (2) 평가 격차: 구조적 정확성과 시각적 충실도를 모두 평가할 수 있는 벤치마크가 부족합니다. 이러한 문제를 해결하기 위해, 우리는 다음과 같은 특징을 가진 폐쇄 루프 프레임워크를 제시합니다. SciTikZ-230K는 당사에서 개발한 실행 중심 데이터 엔진을 통해 수집된 11개의 다양한 과학 분야를 포괄하는 대규모 고품질 데이터셋입니다. SciTikZ-Bench는 기본적인 기하학적 구조부터 복잡한 계층적 다이어그램에 이르기까지 다양한 측면을 포괄하는 다면적인 벤치마크로, 시각적 충실도와 구조적 논리를 모두 평가합니다. 또한, 시각-코드 최적화 방법론의 범위를 더욱 넓히기 위해, Round-Trip Verification을 사용하여 비정형 코드를 제재하고 전반적인 자기 일관성을 향상시키는 새로운 이중 자기 일관성 강화 학습 최적화 패러다임을 도입했습니다. 이러한 요소들을 바탕으로, 저희가 학습한 모델 SciTikZer-8B는 최첨단 성능을 달성했으며, Gemini-2.5-Pro와 같은 독점 모델 및 Qwen3-VL-235B-A22B-Instruct와 같은 대규모 모델보다 일관되게 우수한 성능을 보였습니다.
Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.