2602.03414v1 Feb 03, 2026 cs.CV

Socratic-Geo: 멀티 에이전트 상호작용을 통한 합성 데이터 생성 및 기하학적 추론

Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Zhengbo Jiao
Zhengbo Jiao
Citations: 13
h-index: 1
Zifan Zhang
Zifan Zhang
Citations: 18
h-index: 2
Bing Zhao
Bing Zhao
Citations: 40
h-index: 3
Shaobo Wang
Shaobo Wang
Citations: 8
h-index: 1
Linfeng Zhang
Linfeng Zhang
Citations: 48
h-index: 4
Hu Wei
Hu Wei
Citations: 15
h-index: 2

다중 모드 대규모 언어 모델(MLLM)은 시각-언어 이해 분야에서 상당한 발전을 이루었습니다. 그러나 최첨단 모델조차도 기하학적 추론에 어려움을 겪으며, 이는 고품질 이미지-텍스트 쌍의 극심한 부족이라는 중요한 병목 현상을 드러냅니다. 인간의 주석은 비용이 너무 많이 들고, 자동화된 방법은 충실성과 학습 효과를 보장하지 못합니다. 기존 접근 방식은 사용 가능한 이미지에 수동적으로 적응하거나, 비효율적인 랜덤 탐색과 필터링을 사용하여 데이터 생성과 학습 요구 사항을 분리합니다. 본 연구에서는 멀티 에이전트 상호작용을 통해 데이터 합성 및 모델 학습을 동적으로 결합하는 완전 자율 프레임워크인 Socratic-Geo를 제안합니다. Teacher 에이전트는 반사적 피드백(해결 가능성 판단을 위한 Reflect, 시각적 유효성 판단을 위한 RePI)을 통해 매개변수화된 Python 스크립트를 생성하여 이미지-텍스트 쌍의 순도를 보장합니다. Solver 에이전트는 선호 학습을 통해 추론을 최적화하며, 실패 경로는 Teacher의 목표 지향적 증강을 안내합니다. 독립적으로, Generator는 축적된 "이미지-코드-지시" 3튜플을 기반으로 이미지 생성 능력을 학습하여 프로그래밍 기반의 드로잉 지능을 시각적 생성으로 전환합니다. Socratic-Solver는 단 108개의 초기 문제만 사용하여 6개의 벤치마크에서 49.11의 성능을 달성했으며, 기본 모델 데이터의 1/4만 사용하면서 기존 모델보다 2.43점 더 높은 성능을 보였습니다. Socratic-Generator는 GenExam에서 42.4%의 성능을 달성하여 오픈 소스 모델의 새로운 최고 성능을 기록했으며, Seedream-4.0(39.8%)을 능가하고 Gemini-2.5-Flash-Image(43.1%)에 근접했습니다.

Original Abstract

Multimodal Large Language Models (MLLMs) have significantly advanced vision-language understanding. However, even state-of-the-art models struggle with geometric reasoning, revealing a critical bottleneck: the extreme scarcity of high-quality image-text pairs. Human annotation is prohibitively expensive, while automated methods fail to ensure fidelity and training effectiveness. Existing approaches either passively adapt to available images or employ inefficient random exploration with filtering, decoupling generation from learning needs. We propose Socratic-Geo, a fully autonomous framework that dynamically couples data synthesis with model learning through multi-agent interaction. The Teacher agent generates parameterized Python scripts with reflective feedback (Reflect for solvability, RePI for visual validity), ensuring image-text pair purity. The Solver agent optimizes reasoning through preference learning, with failure paths guiding Teacher's targeted augmentation. Independently, the Generator learns image generation capabilities on accumulated "image-code-instruction" triplets, distilling programmatic drawing intelligence into visual generation. Starting from only 108 seed problems, Socratic-Solver achieves 49.11 on six benchmarks using one-quarter of baseline data, surpassing strong baselines by 2.43 points. Socratic-Generator achieves 42.4% on GenExam, establishing new state-of-the-art for open-source models, surpassing Seedream-4.0 (39.8%) and approaching Gemini-2.5-Flash-Image (43.1%).

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!