SpatialGrammar: LLM 기반 3D 실내 장면 생성 시스템을 위한 도메인 특화 언어
SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation
자연어로부터 상호작용 가능한 3D 실내 장면을 자동으로 생성하는 것은 가상 현실, 게임 및 로봇 공학 분야에서 매우 중요합니다. 그러나 기존의 LLM 기반 접근 방식은 종종 공간 오류 및 충돌 문제를 겪는데, 이는 일반적인 장면 표현 방식(예: 원시 좌표 또는 상세한 코드)이 모델이 3D 공간 관계 및 물리적 제약을 추론하는 데 어려움을 야기하기 때문입니다. 본 연구에서는 SpatialGrammar를 제안합니다. 이는 중력에 맞춰 정렬된 실내 레이아웃을 BEV(Bird's Eye View) 그리드 배치로 표현하고, 유효한 3D 기하 구조로의 결정적인 컴파일을 통해 검증 가능한 제약 조건 검사를 가능하게 하는 도메인 특화 언어입니다. 이러한 표현 방식을 바탕으로, (1) SG-Agent라는 폐루프 시스템을 개발하여 컴파일러 피드백을 활용하여 장면을 반복적으로 개선하고 충돌 제약을 적용하며, (2) 컴파일러로 검증된 합성 데이터만을 사용하여 학습된 1억 4천만 파라미터 규모의 SG-Mini 모델을 개발했습니다. 159개의 테스트 장면과 다양한 복잡성을 가진 5가지 시나리오를 통해, SG-Agent는 기존 방법보다 공간 정확도와 물리적 타당성을 향상시키는 반면, SG-Mini는 단일 생성 시나리오에서 더 큰 LLM 기반 모델과 경쟁력 있는 성능을 보입니다.
Automatically generating interactive 3D indoor scenes from natural language is crucial for virtual reality, gaming, and embodied AI. However, existing LLM-based approaches often suffer from spatial errors and collisions, in part because common scene representations-raw coordinates or verbose code-are difficult for models to reason about 3D spatial relationships and physical constraints. We propose SpatialGrammar, a domain-specific language that represents gravity-aligned indoor layouts as BEV grid placements with deterministic compilation to valid 3D geometry, enabling verifiable constraint checking. Building on this representation, we develop (1) SG-Agent, a closed-loop system that uses compiler feedback to iteratively refine scenes and enforce collision constraints, and (2) SG-Mini, a 104M-parameter model trained entirely on compiler-validated synthetic data. Across 159 test scenes spanning five scenarios of different complexity, SG-Agent improves spatial fidelity and physical plausibility over prior methods, while SG-Mini performs competitively against larger LLM-based baselines on single-shot generation scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.