MANSION: 다층 건물 3D 장면 생성 프레임워크를 이용한 장기 계획 수행
MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks
실제 로봇 작업은 종종 여러 층을 포함하는 장기적인 과제이며, 풍부한 공간 추론 능력을 요구합니다. 그러나 기존의 로봇 벤치마크는 대부분 단일 층의 제한적인 환경으로 구성되어 있어 실제 작업의 복잡성을 제대로 반영하지 못합니다. 본 논문에서는 건물 전체 규모의 다층 3D 환경을 생성하는 최초의 언어 기반 프레임워크인 MANSION을 소개합니다. MANSION은 수직 구조적 제약을 고려하여, 다양한 인간 친화적인 장면을 포함하는 현실적이고 탐색 가능한 건물 전체 구조를 생성함으로써, 건물 간 장기 계획 과제의 개발 및 평가를 가능하게 합니다. 본 프레임워크를 기반으로, 병원부터 사무실까지 1,000개 이상의 다양한 건물을 포함하는 데이터셋인 MansionWorld를 공개하며, 사용자의 특정 요구사항을 충족하기 위해 개방형 어휘 명령어를 사용하여 이러한 환경을 사용자 정의하는 Task-Semantic Scene Editing Agent도 함께 제공합니다. 성능 평가 결과, 최첨단 에이전트들이 MANSION 환경에서 성능 저하를 보이는 것으로 나타났으며, 이는 MANSION이 차세대 공간 추론 및 계획 기술의 중요한 테스트베드임을 입증합니다.
Real-world robotic tasks are long-horizon and often span multiple floors, demanding rich spatial reasoning. However, existing embodied benchmarks are largely confined to single-floor in-house environments, failing to reflect the complexity of real-world tasks. We introduce MANSION, the first language-driven framework for generating building-scale, multi-floor 3D environments. Being aware of vertical structural constraints, MANSION generates realistic, navigable whole-building structures with diverse, human-friendly scenes, enabling the development and evaluation of cross-floor long-horizon tasks. Building on this framework, we release MansionWorld, a dataset of over 1,000 diverse buildings ranging from hospitals to offices, alongside a Task-Semantic Scene Editing Agent that customizes these environments using open-vocabulary commands to meet specific user needs. Benchmarking reveals that state-of-the-art agents degrade sharply in our settings, establishing MANSION as a critical testbed for the next generation of spatial reasoning and planning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.