2603.22279v1 Mar 23, 2026 cs.CV

3D-Layout-R1: 언어 지시 기반 공간 편집을 위한 구조적 추론

3D-Layout-R1: Structured Reasoning for Language-Instructed Spatial Editing

Kaichun Mo
Kaichun Mo
Citations: 831
h-index: 8
Hang Zhang
Hang Zhang
Citations: 165
h-index: 5
Haoyu Zhen
Haoyu Zhen
Citations: 925
h-index: 7
Xiaolong Li
Xiaolong Li
Citations: 39
h-index: 2
Yilin Zhao
Yilin Zhao
Citations: 75
h-index: 2
Sifei Liu
Sifei Liu
Citations: 1,056
h-index: 11
Chuang Gan
Chuang Gan
Citations: 159
h-index: 5
Subhashree Radhakrishnan
Subhashree Radhakrishnan
Citations: 486
h-index: 8

대규모 언어 모델(LLM)과 시각-언어 모델(VLM)은 뛰어난 추론 능력을 보여주지만, 세밀한 시각적 편집을 수행할 때 공간 이해 및 레이아웃 일관성 유지에 어려움을 겪습니다. 본 연구에서는 텍스트 기반 공간 레이아웃 편집을 위해 장면 그래프 추론을 활용하는 구조적 추론 프레임워크를 소개합니다. 입력된 장면 그래프와 자연어 지시사항을 바탕으로, 모델은 그래프를 통해 추론하여 텍스트 조건을 만족하면서도 공간적 일관성을 유지하는 업데이트된 장면 그래프를 생성합니다. 구조적 관계 표현을 통해 추론 과정을 명시적으로 안내함으로써, 본 연구는 공간 관계에 대한 해석 가능성과 제어력을 향상시킵니다. 본 연구는 정렬, 공간 정렬 및 방 편집 작업 등 다양한 텍스트 기반 레이아웃 편집 벤치마크를 통해 제안된 방법을 평가했습니다. 제안된 훈련 방식은 Chain of Thought Fine-tuning (CoT-SFT) 및 기본적인 GRPO 방법과 비교하여 평균적으로 IoU (Intersection over Union)가 15% 향상되고, 중심 거리 오차가 25% 감소했습니다. 최첨단(SOTA)의 제로샷 LLM과 비교했을 때, 본 연구의 최고 성능 모델은 mIoU (mean Intersection over Union)에서 최대 20% 향상된 결과를 보여주며, 공간적 정확도가 현저히 향상되었음을 입증합니다.

Original Abstract

Large Language Models (LLMs) and Vision Language Models (VLMs) have shown impressive reasoning abilities, yet they struggle with spatial understanding and layout consistency when performing fine-grained visual editing. We introduce a Structured Reasoning framework that performs text-conditioned spatial layout editing via scene-graph reasoning. Given an input scene graph and a natural-language instruction, the model reasons over the graph to generate an updated scene graph that satisfies the text condition while maintaining spatial coherence. By explicitly guiding the reasoning process through structured relational representations, our approach improves both interpretability and control over spatial relationships. We evaluate our method on a new text-guided layout editing benchmark encompassing sorting, spatial alignment, and room-editing tasks. Our training paradigm yields an average 15% improvement in IoU and 25% reduction in center-distance error compared to Chain of Thought Fine-tuning (CoT-SFT) and vanilla GRPO baselines. Compared to SOTA zero-shot LLMs, our best models achieve up to 20% higher mIoU, demonstrating markedly improved spatial precision.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!