2605.15186v1 May 14, 2026 cs.CV

VGGT-Edit: 잔차 필드 예측을 통한 순방향 3차원 장면 편집

VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

Zhou Liu
Zhou Liu
Citations: 55
h-index: 4
Bohan Zeng
Bohan Zeng
Citations: 234
h-index: 9
Jaehong Yoon
Jaehong Yoon
Citations: 271
h-index: 6
Ruichuan An
Ruichuan An
Citations: 52
h-index: 3
Ziyu Guo
Ziyu Guo
Citations: 2,663
h-index: 20
Renrui Zhang
Renrui Zhang
Citations: 418
h-index: 9
Yifan Yang
Yifan Yang
Citations: 57
h-index: 4
Kaixin Zhu
Kaixin Zhu
Citations: 48
h-index: 3
Yiwen Tang
Yiwen Tang
Citations: 745
h-index: 10
Qizhi Chen
Qizhi Chen
Citations: 658
h-index: 10
Delin Qu
Delin Qu
Citations: 1,173
h-index: 11
Wentao Zhang
Wentao Zhang
Citations: 5
h-index: 1

최근 고품질 3차원 장면 재구성은 일반화된 순방향 아키텍처로 발전하여 단일 순방향 과정에서 복잡한 환경을 생성할 수 있게 되었습니다. 그러나 이러한 모델들은 정적 장면 인식에서는 강력한 성능을 보이지만, 동적인 사용자 지시에 대한 반응이 제한되어 있어 상호 작용 애플리케이션에서의 활용에 제약이 있습니다. 기존의 편집 방법은 일반적으로 2차원 리프팅 전략에 의존하는데, 여기서 개별 뷰를 독립적으로 편집한 다음 3차원 공간으로 다시 리프팅합니다. 이러한 간접적인 파이프라인은 종종 흐릿한 텍스처와 일관성 없는 기하학적 구조를 초래하는데, 이는 2차원 편집기가 다양한 시점에서 구조를 유지하는 데 필요한 공간 인지 능력이 부족하기 때문입니다. 이러한 제한 사항을 해결하기 위해, 텍스트 기반의 3차원 장면 편집을 위한 순방향 프레임워크인 VGGT-Edit를 제안합니다. VGGT-Edit는 텍스트 정보를 깊이 동기화하여 백본의 공간적 위치에 정렬함으로써 의미론적 지침과 공간적 정보를 일치시켜 안정적인 지침 적용을 보장합니다. 이 의미론적 신호는 잔차 변환 헤드에 의해 처리되며, 이 헤드는 3차원 기하학적 변위를 직접 예측하여 배경의 안정성을 유지하면서 장면을 변형합니다. 고품질 결과를 보장하기 위해, 우리는 기하학적 정확성과 시점 간 일관성을 강화하는 다항목 목적 함수를 사용하여 프레임워크를 학습시킵니다. 또한, 3차원 데이터의 정확성을 보장하기 위해 자동화된 파이프라인과 3차원 일치 필터링을 통해 생성된 대규모 데이터셋인 DeltaScene 데이터셋을 구축했습니다. 실험 결과, VGGT-Edit는 2차원 리프팅 기반 모델보다 훨씬 뛰어난 성능을 보이며, 더 선명한 객체 디테일, 강력한 시점 간 일관성 및 거의 즉각적인 추론 속도를 제공합니다.

Original Abstract

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.

0 Citations
0 Influential
10 Altmetric
50.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!