2601.11109v2 Jan 16, 2026 cs.CV

교차 모달 추론을 통한 비전-인버스-그래픽스 에이전트

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

Angjoo Kanazawa
Angjoo Kanazawa
Citations: 22,820
h-index: 55
Z. Wang
Z. Wang
Citations: 501
h-index: 9
Shaofeng Yin
Shaofeng Yin
Citations: 144
h-index: 4
Jiaxin Ge
Jiaxin Ge
Citations: 166
h-index: 8
Xiuyu Li
Xiuyu Li
Citations: 219
h-index: 4
Michael J. Black
Michael J. Black
Citations: 111
h-index: 5
Trevor Darrell
Trevor Darrell
Citations: 132
h-index: 3
Haiwen Feng
Haiwen Feng
Citations: 34
h-index: 2

이미지를 편집 가능한 그래픽 프로그램으로 재구성하는 '비전-인버스-그래픽스'는 컴퓨터 비전 분야의 오랜 목표입니다. 그러나 강력한 시각 언어 모델(VLM)조차도 한 번에 이를 달성하지 못하는데, 이는 미세한 공간적 및 물리적 이해 능력의 부족 때문입니다. 저희의 핵심 아이디어는 이 격차를 메우기 위해서는 반복적인 실행 및 검증을 통한 교차 모달 추론이 필요하다는 것입니다. 이에 따라, 저희는 빈 화면에서 시작하여 폐루프 방식으로 장면을 재구성하거나 편집하는 'VIGA(비전-인버스-그래픽스 에이전트)'를 제안합니다. VIGA는 (i) 생성기와 검증자 역할을 번갈아 수행하는 기술 라이브러리와 (ii) 계획, 코드 차이점 및 렌더링 기록을 포함하는 진화하는 컨텍스트 메모리를 결합하여 장기적인 추론을 지원합니다. VIGA는 추가 모듈이 필요 없으므로, 3D 재구성, 다단계 장면 편집, 4D 물리적 상호 작용, 2D 문서 편집 등 다양한 작업을 수행할 수 있습니다. 실험적으로, VIGA는 BlenderGym에서 35.32%, SlideBench에서 117.17%로 기존 방법보다 성능이 크게 향상되었습니다. 또한, VIGA는 파인튜닝이 필요하지 않으므로, 다양한 VLM을 평가할 수 있는 통합 프로토콜을 가능하게 합니다. 이러한 프로토콜을 더욱 강화하기 위해, 저희는 그래픽 엔진과의 교차 모달 추론을 테스트하는 어려운 벤치마크인 BlenderBench를 소개합니다. VIGA는 BlenderBench에서 124.70%의 성능 향상을 보였습니다.

Original Abstract

Vision-as-inverse-graphics, the concept of reconstructing an image as an editable graphics program is a long-standing goal of computer vision. Yet even strong VLMs aren't able to achieve this in one-shot as they lack fine-grained spatial and physical grounding capability. Our key insight is that closing this gap requires interleaved multimodal reasoning through iterative execution and verification. Stemming from this, we present VIGA (Vision-as-Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write-run-render-compare-revise procedure. To support long-horizon reasoning, VIGA combines (i) a skill library that alternates generator and verifier roles and (ii) an evolving context memory that contains plans, code diffs, and render history. VIGA is task-agnostic as it doesn't require auxiliary modules, covering a wide range of tasks such as 3D reconstruction, multi-step scene editing, 4D physical interaction, and 2D document editing, etc. Empirically, we found VIGA substantially improves one-shot baselines on BlenderGym (35.32%) and SlideBench (117.17%). Moreover, VIGA is also model-agnostic as it doesn't require finetuning, enabling a unified protocol to evaluate heterogeneous foundation VLMs. To better support this protocol, we introduce BlenderBench, a challenging benchmark that stress-tests interleaved multimodal reasoning with graphics engine, where VIGA improves by 124.70%.

2 Citations
0 Influential
27.5 Altmetric
139.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!