2601.05810v2 Jan 09, 2026 cs.CV

SceneFoundry: 상호작용 가능한 무한 3차원 세계 생성

SceneFoundry: Generating Interactive Infinite 3D Worlds

Chun Chen
Chun Chen
Citations: 117
h-index: 4
YiChen Hsu
YiChen Hsu
Citations: 0
h-index: 0
Yiwen Liu
Yiwen Liu
Citations: 8
h-index: 2
Wei-Fang Sun
Wei-Fang Sun
Citations: 58
h-index: 5
TsaiChing Ni
TsaiChing Ni
Citations: 0
h-index: 0
Chun-Yi Lee
Chun-Yi Lee
Citations: 12
h-index: 2
Min Sun
Min Sun
Citations: 29
h-index: 4
YuanFu Yang
YuanFu Yang
Citations: 0
h-index: 0

대규모 로봇 학습 및 인공지능 발전을 위해서는 자동으로 생성된, 상호작용 가능하며 물리적으로 현실적인 3차원 환경이 필수적입니다. 그러나 기존의 생성 방식은 조작 및 탐색에 필수적인 움직이는 부품을 포함하는 실제 환경의 기능적 복잡성을 제대로 반영하지 못하는 경우가 많습니다. 본 논문에서는 SceneFoundry라는 언어 기반 확산 프레임워크를 소개합니다. SceneFoundry는 로봇 훈련을 위해 기능적으로 연결된 가구와 다양한 레이아웃을 가진 아파트 규모의 3차원 세계를 생성합니다. 자연어 프롬프트를 기반으로, LLM 모듈은 바닥 레이아웃 생성을 제어하고, 확산 기반의 후처리 샘플링을 통해 대규모 3차원 데이터베이스에서 연결 가능한 자산을 효율적으로 배치합니다. SceneFoundry는 물리적 사용성을 보장하기 위해 미분 가능한 가이드 함수를 사용하여 객체 수 조절, 연결 부품 간의 충돌 방지, 그리고 로봇 탐색을 위한 충분한 이동 공간 확보를 규제합니다. 광범위한 실험 결과, SceneFoundry는 다양한 장면 유형과 조건에서 구조적으로 유효하고 의미적으로 일관되며 기능적으로 상호작용 가능한 환경을 생성하며, 이를 통해 확장 가능한 인공지능 연구를 가능하게 합니다. 프로젝트 페이지: https://anc891203.github.io/SceneFoundry-Demo/

Original Abstract

The ability to automatically generate large-scale, interactive, and physically realistic 3D environments is crucial for advancing robotic learning and embodied intelligence. However, existing generative approaches often fail to capture the functional complexity of real-world interiors, particularly those containing articulated objects with movable parts essential for manipulation and navigation. This paper presents SceneFoundry, a language-guided diffusion framework that generates apartment-scale 3D worlds with functionally articulated furniture and semantically diverse layouts for robotic training. From natural language prompts, an LLM module controls floor layout generation, while diffusion-based posterior sampling efficiently populates the scene with articulated assets from large-scale 3D repositories. To ensure physical usability, SceneFoundry employs differentiable guidance functions to regulate object quantity, prevent articulation collisions, and maintain sufficient walkable space for robotic navigation. Extensive experiments demonstrate that our framework generates structurally valid, semantically coherent, and functionally interactive environments across diverse scene types and conditions, enabling scalable embodied AI research. project page: https://anc891203.github.io/SceneFoundry-Demo/

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!