3D 장면 이해를 위한 방대한 비표시 인터넷 데이터 활용
Lifting Unlabeled Internet-level Data for 3D Scene Understanding
주석이 달린 3D 장면 데이터는 부족하고 획득 비용이 많이 들지만, 인터넷에는 풍부한 비표시 비디오 데이터가 쉽게 이용 가능합니다. 본 논문에서는 신중하게 설계된 데이터 엔진을 사용하여 웹에서 수집된 비표시 비디오를 활용하여 자동으로 학습 데이터를 생성하고, 이를 통해 인간이 주석을 단 데이터 세트와 함께 3D 장면 이해를 위한 엔드 투 엔드 모델을 개발할 수 있음을 보여줍니다. 우리는 자동 데이터 생성 과정에서의 병목 현상을 파악하고 분석하여, 비표시 데이터로부터 학습하는 효율성과 효과를 결정하는 중요한 요인을 밝혀냅니다. 제안하는 방법의 다양한 수준의 인지 능력에 대한 유효성을 검증하기 위해, 3D 객체 감지 및 인스턴스 분할과 같은 저수준 인지 작업부터 3D 공간 시각 질의 응답(VQA) 및 시각-언어 내비게이션(VLN)과 같은 고수준 추론 작업에 대한 실험을 진행했습니다. 생성된 데이터로 학습된 모델은 뛰어난 제로샷 성능을 보이며, 추가적인 미세 조정(finetuning)을 통해 더욱 향상된 성능을 나타냅니다. 이는 쉽게 이용 가능한 웹 데이터를 활용하여 더욱 강력한 장면 이해 시스템을 구축할 수 있는 가능성을 보여줍니다.
Annotated 3D scene data is scarce and expensive to acquire, while abundant unlabeled videos are readily available on the internet. In this paper, we demonstrate that carefully designed data engines can leverage web-curated, unlabeled videos to automatically generate training data, to facilitate end-to-end models in 3D scene understanding alongside human-annotated datasets. We identify and analyze bottlenecks in automated data generation, revealing critical factors that determine the efficiency and effectiveness of learning from unlabeled data. To validate our approach across different perception granularities, we evaluate on three tasks spanning low-level perception, i.e., 3D object detection and instance segmentation, to high-evel reasoning, i.e., 3D spatial Visual Question Answering (VQA) and Vision-Lanugage Navigation (VLN). Models trained on our generated data demonstrate strong zero-shot performance and show further improvement after finetuning. This demonstrates the viability of leveraging readily available web data as a path toward more capable scene understanding systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.