복셀 기반 3D 편집의 한계를 넘어: 3D 마스크와 자체 구축 데이터로부터 학습
Beyond Voxel 3D Editing: Learning from 3D Masks and Self-Constructed Data
3D 편집은 3D 자산에 대한 지역적 또는 전역적 수정 사항을 적용하는 능력을 의미합니다. 효과적인 3D 편집은 프롬프트에 따라 지역적인 변경을 수행하면서 의미적 일관성을 유지하고, 동시에 변경되지 않은 영역이 원래와 일관성을 유지하도록 지역적 불변성을 보존해야 합니다. 그러나 기존 접근 방식은 상당한 한계를 가지고 있습니다. 다중 뷰 편집 방법은 3D로 투영할 때 손실이 발생하며, 복셀 기반 편집은 수정 가능한 영역과 수정 규모 모두에 제약이 있습니다. 또한, 학습 및 평가를 위한 충분히 큰 편집 데이터셋의 부족은 여전히 과제입니다. 이러한 문제점을 해결하기 위해, 우리는 3D 편집을 위해 특별히 설계된 대규모 자체 구축 데이터셋을 활용하는 Beyond Voxel 3D Editing (BVE) 프레임워크를 제안합니다. 이 데이터셋을 기반으로, 우리의 모델은 경량의 학습 가능한 모듈을 추가하여 기본적인 이미지-3D 생성 아키텍처를 향상시키고, 비용이 많이 드는 전체 모델 재학습 없이 텍스트 의미를 효율적으로 주입할 수 있도록 합니다. 또한, 지역적 불변성을 유지하여 편집 과정에서 변경되지 않은 영역의 무결성을 보존하기 위한 주석이 없는 3D 마스크 전략을 도입했습니다. 광범위한 실험 결과, BVE는 고품질의 텍스트 기반 3D 자산을 생성하는 데 뛰어난 성능을 보이며, 동시에 원래 입력의 시각적 특징을 충실하게 유지하는 것을 보여줍니다.
3D editing refers to the ability to apply local or global modifications to 3D assets. Effective 3D editing requires maintaining semantic consistency by performing localized changes according to prompts, while also preserving local invariance so that unchanged regions remain consistent with the original. However, existing approaches have significant limitations: multi-view editing methods incur losses when projecting back to 3D, while voxel-based editing is constrained in both the regions that can be modified and the scale of modifications. Moreover, the lack of sufficiently large editing datasets for training and evaluation remains a challenge. To address these challenges, we propose a Beyond Voxel 3D Editing (BVE) framework with a self-constructed large-scale dataset specifically tailored for 3D editing. Building upon this dataset, our model enhances a foundational image-to-3D generative architecture with lightweight, trainable modules, enabling efficient injection of textual semantics without the need for expensive full-model retraining. Furthermore, we introduce an annotation-free 3D masking strategy to preserve local invariance, maintaining the integrity of unchanged regions during editing. Extensive experiments demonstrate that BVE achieves superior performance in generating high-quality, text-aligned 3D assets, while faithfully retaining the visual characteristics of the original input.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.