3DrawAgent: 초기 대비 학습을 통해 LLM이 3D 공간에서 그림을 그리는 방법
3DrawAgent: Teaching LLM to Draw in 3D with Early Contrastive Experience
3차원 공간에서의 스케치는 형태, 구조 및 공간 관계에 대한 표현력을 높일 수 있지만, 자연어 입력을 통해 3D 스케치를 생성하는 것은 여전히 큰 과제입니다. 본 연구에서는 3DrawAgent를 소개합니다. 3DrawAgent는 대규모 언어 모델(LLM)을 활용하여 기하학적 피드백을 기반으로 3D 베지어 곡선을 순차적으로 그리는, 학습이 필요 없는 언어 기반의 3D 스케치 생성 프레임워크입니다. 기존의 2D 스케치 에이전트와 달리, 본 방법은 최근 제안된 그룹 보상 정책 최적화(GRPO) 패러다임을 적용한 상대적인 경험 최적화 전략을 도입합니다. 명시적인 정답 지도 없이, 생성된 스케치 쌍을 비교하여 CLIP 기반의 인식적 보상과 LLM 기반의 세밀한 질적 평가를 통해 상대적으로 더 나은 결과와 더 나쁜 결과를 구성합니다. 이러한 경험은 3D 드로잉에 대한 사전 지식을 반복적으로 개선하는 데 사용되어 모델의 3D 인지 능력을 강화합니다. 이러한 설계 덕분에 본 모델은 파라미터 업데이트 없이 자체적으로 공간 이해 능력과 드로잉 품질을 향상시킬 수 있습니다. 실험 결과, 3DrawAgent는 다양한 텍스트 프롬프트로부터 복잡하고 일관성 있는 3D 베지어 스케치를 생성하고, 잠재적인 기하학적 추론 능력을 보여주며, 새로운 형태에 대한 일반화 능력을 갖춘 것으로 나타났습니다. 이는 학습이 필요 없는 3D 스케치 인텔리전스 분야를 발전시키는 새로운 패러다임을 제시합니다.
Sketching in 3D space enables expressive reasoning about shape, structure, and spatial relationships, yet generating 3D sketches through natural language remains a major challenge. In this work, we introduce 3DrawAgent, a training-free, language-driven framework for 3D sketch generation that leverages large language models (LLMs) to sequentially draw 3D Bezier curves under geometric feedback. Unlike prior 2D sketch agents, our method introduces a relative experience optimization strategy that adapts the recently proposed Group Reward Policy Optimization (GRPO) paradigm. Instead of relying on explicit ground-truth supervision, we construct pairwise comparisons among generated sketches, with each pair consisting of a relatively better and a worse result based on CLIP-based perceptual rewards and LLM-based fine-grained qualitative assessment. These experiences are then used to iteratively refine the prior knowledge of 3D drawing, enabling black-box reinforcement of the model's 3D awareness. This design allows our model to self-improve its spatial understanding and drawing quality without parameter updates. Experiments show that 3DrawAgent can generate complex and coherent 3D Bezier sketches from diverse textual prompts, exhibit emergent geometric reasoning, and generalize to novel shapes, establishing a new paradigm for advancing the field of training-free 3D sketch intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.