2601.11109v2 Jan 16, 2026 cs.CV

교차 모달 추론을 통한 비전-인버스-그래픽스 에이전트

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

Angjoo Kanazawa
Angjoo Kanazawa
Citations: 23,895
h-index: 56
Z. Wang
Z. Wang
Citations: 666
h-index: 10
Shaofeng Yin
Shaofeng Yin
Citations: 170
h-index: 5
Jiaxin Ge
Jiaxin Ge
Citations: 211
h-index: 8
Xiuyu Li
Xiuyu Li
Citations: 274
h-index: 5
Michael J. Black
Michael J. Black
Citations: 144
h-index: 6
Trevor Darrell
Trevor Darrell
Citations: 167
h-index: 4
Haiwen Feng
Haiwen Feng
Citations: 57
h-index: 3

이미지를 편집 가능한 그래픽 프로그램으로 재구성하는 '비전-인버스-그래픽스'는 컴퓨터 비전 분야의 오랜 목표입니다. 그러나 강력한 시각 언어 모델(VLM)조차도 한 번에 이를 달성하지 못하는데, 이는 미세한 공간적 및 물리적 이해 능력의 부족 때문입니다. 저희의 핵심 아이디어는 이 격차를 메우기 위해서는 반복적인 실행 및 검증을 통한 교차 모달 추론이 필요하다는 것입니다. 이에 따라, 저희는 빈 화면에서 시작하여 폐루프 방식으로 장면을 재구성하거나 편집하는 'VIGA(비전-인버스-그래픽스 에이전트)'를 제안합니다. VIGA는 (i) 생성기와 검증자 역할을 번갈아 수행하는 기술 라이브러리와 (ii) 계획, 코드 차이점 및 렌더링 기록을 포함하는 진화하는 컨텍스트 메모리를 결합하여 장기적인 추론을 지원합니다. VIGA는 추가 모듈이 필요 없으므로, 3D 재구성, 다단계 장면 편집, 4D 물리적 상호 작용, 2D 문서 편집 등 다양한 작업을 수행할 수 있습니다. 실험적으로, VIGA는 BlenderGym에서 35.32%, SlideBench에서 117.17%로 기존 방법보다 성능이 크게 향상되었습니다. 또한, VIGA는 파인튜닝이 필요하지 않으므로, 다양한 VLM을 평가할 수 있는 통합 프로토콜을 가능하게 합니다. 이러한 프로토콜을 더욱 강화하기 위해, 저희는 그래픽 엔진과의 교차 모달 추론을 테스트하는 어려운 벤치마크인 BlenderBench를 소개합니다. VIGA는 BlenderBench에서 124.70%의 성능 향상을 보였습니다.

Original Abstract

Vision-as-inverse-graphics, the concept of reconstructing an image as an editable graphics program is a long-standing goal of computer vision. Yet even strong VLMs aren't able to achieve this in one-shot as they lack fine-grained spatial and physical grounding capability. Our key insight is that closing this gap requires interleaved multimodal reasoning through iterative execution and verification. Stemming from this, we present VIGA (Vision-as-Inverse-Graphic Agent) that starts from an empty world and reconstructs or edits scenes through a closed-loop write-run-render-compare-revise procedure. To support long-horizon reasoning, VIGA combines (i) a skill library that alternates generator and verifier roles and (ii) an evolving context memory that contains plans, code diffs, and render history. VIGA is task-agnostic as it doesn't require auxiliary modules, covering a wide range of tasks such as 3D reconstruction, multi-step scene editing, 4D physical interaction, and 2D document editing, etc. Empirically, we found VIGA substantially improves one-shot baselines on BlenderGym (35.32%) and SlideBench (117.17%). Moreover, VIGA is also model-agnostic as it doesn't require finetuning, enabling a unified protocol to evaluate heterogeneous foundation VLMs. To better support this protocol, we introduce BlenderBench, a challenging benchmark that stress-tests interleaved multimodal reasoning with graphics engine, where VIGA improves by 124.70%.

6 Citations
0 Influential
28 Altmetric
146.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!