2604.14025v1 Apr 15, 2026 cs.CV

피드포워드 3D 장면 모델링: 문제 중심적 관점

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

Chuanxia Zheng
Chuanxia Zheng
NTU
Citations: 2,201
h-index: 19
Donny Y. Chen
Donny Y. Chen
Citations: 10
h-index: 1
Bohan Zhuang
Bohan Zhuang
Citations: 5,902
h-index: 36
Qihang Cao
Qihang Cao
Citations: 3
h-index: 1
Weijie Wang
Weijie Wang
Citations: 197
h-index: 3
Haofei Xu
Haofei Xu
Citations: 2,284
h-index: 12
Sensen Gao
Sensen Gao
Citations: 180
h-index: 6
Wenjing Bian
Wenjing Bian
Citations: 387
h-index: 4
Tat-Jen Cham
Tat-Jen Cham
Nanyang Technological University
Citations: 5,823
h-index: 38
Andreas Geiger
Andreas Geiger
Citations: 200
h-index: 3
Jiamian Bian
Jiamian Bian
Citations: 0
h-index: 0
Songyou Peng
Songyou Peng
Citations: 8
h-index: 1
Jianfei Cai
Jianfei Cai
Citations: 3
h-index: 1

2D 입력을 기반으로 3D 표현을 재구성하는 것은 컴퓨터 비전 및 그래픽 분야의 핵심적인 과제로, 물리 세계를 이해하고 상호 작용하는 데 중요한 역할을 합니다. 기존 방법들은 높은 정확도를 달성하지만, 장면별 최적화의 속도 저하나 특정 범주에 특화된 학습으로 인해 실제 적용과 확장성에 제한이 있습니다. 따라서, 최근 몇 년 동안 일반화된 피드포워드 3D 재구성이 빠르게 발전해 왔습니다. 이러한 방법들은 단일 패스(forward pass)를 통해 이미지를 3D 표현으로 직접 매핑하는 모델을 학습하여 효율적인 재구성과 강력한 장면 간 일반화 성능을 제공합니다. 본 연구는 중요한 관찰에서 출발합니다. 즉, 암시적 필드에서 명시적 원시 데이터에 이르기까지 다양한 기하학적 출력 표현이 존재함에도 불구하고, 기존의 피드포워드 접근 방식들은 이미지 특징 추출 기반 구조, 다중 뷰 정보 융합 메커니즘, 그리고 기하학적 정보에 대한 고려와 같은 유사한 고수준 아키텍처 패턴을 공유합니다. 따라서, 본 연구는 이러한 표현 방식의 차이점을 간과하고, 대신 모델 설계 전략에 초점을 맞춘 새로운 분류 체계를 제안합니다. 제안된 분류 체계는 연구 방향을 다섯 가지 핵심 문제로 구성하며, 이는 최근 연구 개발을 주도하고 있습니다. 이러한 분류 체계를 경험적으로 뒷받침하고 표준화된 평가를 제공하기 위해, 관련된 벤치마크 및 데이터셋을 종합적으로 검토하고, 피드포워드 3D 모델을 기반으로 하는 실제 응용 분야를 심층적으로 분석하고 분류합니다. 마지막으로, 확장성, 평가 기준, 그리고 세계 모델링과 같은 해결해야 할 과제들을 중심으로 향후 연구 방향을 제시합니다.

Original Abstract

Reconstructing 3D representations from 2D inputs is a fundamental task in computer vision and graphics, serving as a cornerstone for understanding and interacting with the physical world. While traditional methods achieve high fidelity, they are limited by slow per-scene optimization or category-specific training, which hinders their practical deployment and scalability. Hence, generalizable feed-forward 3D reconstruction has witnessed rapid development in recent years. By learning a model that maps images directly to 3D representations in a single forward pass, these methods enable efficient reconstruction and robust cross-scene generalization. Our survey is motivated by a critical observation: despite the diverse geometric output representations, ranging from implicit fields to explicit primitives, existing feed-forward approaches share similar high-level architectural patterns, such as image feature extraction backbones, multi-view information fusion mechanisms, and geometry-aware design principles. Consequently, we abstract away from these representation differences and instead focus on model design, proposing a novel taxonomy centered on model design strategies that are agnostic to the output format. Our proposed taxonomy organizes the research directions into five key problems that drive recent research development: feature enhancement, geometry awareness, model efficiency, augmentation strategies and temporal-aware models. To support this taxonomy with empirical grounding and standardized evaluation, we further comprehensively review related benchmarks and datasets, and extensively discuss and categorize real-world applications based on feed-forward 3D models. Finally, we outline future directions to address open challenges such as scalability, evaluation standards, and world modeling.

0 Citations
0 Influential
19 Altmetric
95.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!