2604.27555v1 Apr 30, 2026 cs.AI

SpatialGrammar: LLM 기반 3D 실내 장면 생성 시스템을 위한 도메인 특화 언어

SpatialGrammar: A Domain-Specific Language for LLM-Based 3D Indoor Scene Generation

Penglei Sun
Penglei Sun
Citations: 33
h-index: 4
Xiaowen Chu
Xiaowen Chu
Citations: 802
h-index: 17
Junyi Zou
Junyi Zou
Citations: 85
h-index: 4
Yuliang Li
Yuliang Li
Citations: 111
h-index: 2
Qingsong Yan
Qingsong Yan
Citations: 86
h-index: 5
Song Tang
Song Tang
Citations: 44
h-index: 2
Kaiyong Zhao
Kaiyong Zhao
Citations: 4,097
h-index: 22
Qiang Wang
Qiang Wang
Citations: 70
h-index: 4

자연어로부터 상호작용 가능한 3D 실내 장면을 자동으로 생성하는 것은 가상 현실, 게임 및 로봇 공학 분야에서 매우 중요합니다. 그러나 기존의 LLM 기반 접근 방식은 종종 공간 오류 및 충돌 문제를 겪는데, 이는 일반적인 장면 표현 방식(예: 원시 좌표 또는 상세한 코드)이 모델이 3D 공간 관계 및 물리적 제약을 추론하는 데 어려움을 야기하기 때문입니다. 본 연구에서는 SpatialGrammar를 제안합니다. 이는 중력에 맞춰 정렬된 실내 레이아웃을 BEV(Bird's Eye View) 그리드 배치로 표현하고, 유효한 3D 기하 구조로의 결정적인 컴파일을 통해 검증 가능한 제약 조건 검사를 가능하게 하는 도메인 특화 언어입니다. 이러한 표현 방식을 바탕으로, (1) SG-Agent라는 폐루프 시스템을 개발하여 컴파일러 피드백을 활용하여 장면을 반복적으로 개선하고 충돌 제약을 적용하며, (2) 컴파일러로 검증된 합성 데이터만을 사용하여 학습된 1억 4천만 파라미터 규모의 SG-Mini 모델을 개발했습니다. 159개의 테스트 장면과 다양한 복잡성을 가진 5가지 시나리오를 통해, SG-Agent는 기존 방법보다 공간 정확도와 물리적 타당성을 향상시키는 반면, SG-Mini는 단일 생성 시나리오에서 더 큰 LLM 기반 모델과 경쟁력 있는 성능을 보입니다.

Original Abstract

Automatically generating interactive 3D indoor scenes from natural language is crucial for virtual reality, gaming, and embodied AI. However, existing LLM-based approaches often suffer from spatial errors and collisions, in part because common scene representations-raw coordinates or verbose code-are difficult for models to reason about 3D spatial relationships and physical constraints. We propose SpatialGrammar, a domain-specific language that represents gravity-aligned indoor layouts as BEV grid placements with deterministic compilation to valid 3D geometry, enabling verifiable constraint checking. Building on this representation, we develop (1) SG-Agent, a closed-loop system that uses compiler feedback to iteratively refine scenes and enforce collision constraints, and (2) SG-Mini, a 104M-parameter model trained entirely on compiler-validated synthetic data. Across 159 test scenes spanning five scenarios of different complexity, SG-Agent improves spatial fidelity and physical plausibility over prior methods, while SG-Mini performs competitively against larger LLM-based baselines on single-shot generation scenarios.

0 Citations
0 Influential
11 Altmetric
55.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!