SpatialMem: 메트릭 앵커링 및 빠른 검색을 지원하는 통합 3D 메모리 시스템
SpatialMem: Unified 3D Memory with Metric Anchoring and Fast Retrieval
본 논문에서는 SpatialMem이라는 메모리 중심 시스템을 제안합니다. SpatialMem은 3D 기하학, 의미, 그리고 언어를 하나의 검색 가능한 표현으로 통합합니다. SpatialMem은 임의적으로 촬영된 1인칭 시점 RGB 비디오를 기반으로, 실제 크기로 재구성된 실내 환경을 생성하고, 벽, 문, 창문과 같은 구조적 3D 앵커를 첫 번째 계층의 기반 구조로 활용합니다. 또한, 개방형 어휘를 사용한 객체 노드를 계층적 메모리에 저장하며, 증거 패치, 시각적 임베딩, 그리고 2계층 텍스트 설명을 3D 좌표와 연결하여 저장 공간을 효율적으로 사용하고 빠른 검색을 가능하게 합니다. 이러한 설계는 공간 관계(예: 거리, 방향, 가시성)에 대한 해석 가능한 추론을 가능하게 하며, 특수 센서 없이도 언어 기반 내비게이션 및 객체 검색과 같은 하위 작업들을 지원합니다. 세 개의 실제 실내 환경에서의 실험 결과는 SpatialMem이 점점 더 복잡해지는 환경에서도 앵커-설명 수준의 내비게이션 완료 및 계층적 검색 정확도를 유지하며, 효율적이고 확장 가능한 임베디드 공간 지능 프레임워크를 제공한다는 것을 보여줍니다.
We present SpatialMem, a memory-centric system that unifies 3D geometry, semantics, and language into a single, queryable representation. Starting from casually captured egocentric RGB video, SpatialMem reconstructs metrically scaled indoor environments, detects structural 3D anchors (walls, doors, windows) as the first-layer scaffold, and populates a hierarchical memory with open-vocabulary object nodes -- linking evidence patches, visual embeddings, and two-layer textual descriptions to 3D coordinates -- for compact storage and fast retrieval. This design enables interpretable reasoning over spatial relations (e.g., distance, direction, visibility) and supports downstream tasks such as language-guided navigation and object retrieval without specialized sensors. Experiments across three real-life indoor scenes demonstrate that SpatialMem maintains strong anchor-description-level navigation completion and hierarchical retrieval accuracy under increasing clutter and occlusion, offering an efficient and extensible framework for embodied spatial intelligence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.