3DGSNav: 능동형 3D 가우시안 스플래팅을 통한 객체 탐색용 비전-언어 모델 추론 강화
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting
객체 탐색은 체화된 지능(embodied intelligence)의 핵심 기능으로, 에이전트가 미지의 환경에서 목표 객체의 위치를 파악할 수 있게 해준다. 최근 비전-언어 모델(VLM)의 발전은 제로샷 객체 탐색(ZSON)을 용이하게 만들었다. 그러나 기존 방법들은 종종 환경을 의미론적 지도나 텍스트 표현으로 변환하는 장면 추상화에 의존하여, 고수준의 의사결정이 저수준 인식의 정확도에 의해 제한되는 문제를 초래한다. 본 연구에서는 공간 추론을 향상시키기 위해 3D 가우시안 스플래팅(3DGS)을 VLM의 영구 메모리로 내장하는 새로운 ZSON 프레임워크인 3DGSNav를 제안한다. 3DGSNav는 능동적 인식을 통해 환경에 대한 3DGS 표현을 점진적으로 구축하며, 이를 통해 프론티어를 고려한 1인칭 시점의 궤적 유도형 자유 시점 렌더링을 가능하게 한다. 또한, 우리는 구조화된 시각적 프롬프트를 설계하고 이를 생각의 사슬(CoT) 프롬프팅과 통합하여 VLM의 추론 능력을 더욱 향상시킨다. 탐색 과정에서는 실시간 객체 탐지기가 잠재적인 목표물을 필터링하는 동시에, VLM 기반의 능동적 시점 전환이 목표물 재검증을 수행하여 효율적이고 신뢰할 수 있는 인식을 보장한다. 여러 벤치마크에 걸친 광범위한 평가와 4족 보행 로봇을 활용한 실제 환경 실험을 통해, 제안된 방법이 최신 기술(SOTA) 접근법들에 비해 강력하고 경쟁력 있는 성능을 달성함을 입증한다. 프로젝트 페이지: https://aczheng-cai.github.io/3dgsnav.github.io/
Object navigation is a core capability of embodied intelligence, enabling an agent to locate target objects in unknown environments. Recent advances in vision-language models (VLMs) have facilitated zero-shot object navigation (ZSON). However, existing methods often rely on scene abstractions that convert environments into semantic maps or textual representations, causing high-level decision making to be constrained by the accuracy of low-level perception. In this work, we present 3DGSNav, a novel ZSON framework that embeds 3D Gaussian Splatting (3DGS) as persistent memory for VLMs to enhance spatial reasoning. Through active perception, 3DGSNav incrementally constructs a 3DGS representation of the environment, enabling trajectory-guided free-viewpoint rendering of frontier-aware first-person views. Moreover, we design structured visual prompts and integrate them with Chain-of-Thought (CoT) prompting to further improve VLM reasoning. During navigation, a real-time object detector filters potential targets, while VLM-driven active viewpoint switching performs target re-verification, ensuring efficient and reliable recognition. Extensive evaluations across multiple benchmarks and real-world experiments on a quadruped robot demonstrate that our method achieves robust and competitive performance against state-of-the-art approaches.The Project Page:https://aczheng-cai.github.io/3dgsnav.github.io/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.