SceneSmith: 시뮬레이션 환경 구축을 위한 능동적인 실내 장면 생성
SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes
시뮬레이션은 가정용 로봇의 대규모 훈련 및 평가를 위한 핵심 도구로 자리 잡았지만, 기존 환경은 실제 실내 공간의 다양성과 물리적 복잡성을 제대로 반영하지 못합니다. 현재의 장면 생성 방법은 밀도가 낮은 가구 배치와 로봇 조작에 필수적인 다양한 물체, 연결 가능한 가구, 물리적 특성을 갖추지 못한 텅 빈 방을 생성하는 경향이 있습니다. 본 논문에서는 자연어 프롬프트를 기반으로 시뮬레이션 환경 구축을 위한 계층적 능동 프레임워크인 SceneSmith를 소개합니다. SceneSmith는 건축 구조, 가구 배치, 소형 물체 배치 등 단계별 과정을 거쳐 장면을 구성하며, 각 단계는 VLM(Vision-Language Model) 에이전트(디자이너, 비평가, 조정자) 간의 상호작용으로 구현됩니다. 본 프레임워크는 텍스트-3D 합성 기술을 활용한 정적 물체 생성, 데이터셋 검색을 통한 연결 가능한 물체 활용, 그리고 물리적 특성 추정 기능을 통합하여 구축되었습니다. SceneSmith는 기존 방법보다 3~6배 더 많은 물체를 생성하며, 물체 간 충돌은 2% 미만이고, 96%의 물체가 물리 시뮬레이션 하에서 안정적으로 유지됩니다. 205명의 참가자를 대상으로 실시한 사용자 연구에서, SceneSmith는 평균 92%의 현실감과 91%의 프롬프트 충실도를 달성하여 기존 방법보다 우수한 성능을 보였습니다. 또한, 이러한 환경이 로봇 정책의 자동 평가를 위한 엔드 투 엔드 파이프라인에서 활용될 수 있음을 보여줍니다.
Simulation has become a key tool for training and evaluating home robots at scale, yet existing environments fail to capture the diversity and physical complexity of real indoor spaces. Current scene synthesis methods produce sparsely furnished rooms that lack the dense clutter, articulated furniture, and physical properties essential for robotic manipulation. We introduce SceneSmith, a hierarchical agentic framework that generates simulation-ready indoor environments from natural language prompts. SceneSmith constructs scenes through successive stages$\unicode{x2013}$from architectural layout to furniture placement to small object population$\unicode{x2013}$each implemented as an interaction among VLM agents: designer, critic, and orchestrator. The framework tightly integrates asset generation through text-to-3D synthesis for static objects, dataset retrieval for articulated objects, and physical property estimation. SceneSmith generates 3-6x more objects than prior methods, with <2% inter-object collisions and 96% of objects remaining stable under physics simulation. In a user study with 205 participants, it achieves 92% average realism and 91% average prompt faithfulness win rates against baselines. We further demonstrate that these environments can be used in an end-to-end pipeline for automatic robot policy evaluation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.