2602.14968v1 Feb 16, 2026 cs.RO

PhyScensis: 물리학 기반 LLM 에이전트를 활용한 복잡한 물리적 환경 구성

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement

Yian Wang
Yian Wang
Citations: 435
h-index: 7
Han Yang
Han Yang
Citations: 2
h-index: 1
Minghao Guo
Minghao Guo
Citations: 215
h-index: 7
Xiaowen Qiu
Xiaowen Qiu
Citations: 433
h-index: 5
Tsun-Hsuan Wang
Tsun-Hsuan Wang
Citations: 239
h-index: 6
Wojciech Matusik
Wojciech Matusik
Citations: 194
h-index: 7
J. B. Tenenbaum
J. B. Tenenbaum
Citations: 6,503
h-index: 20
Chuang Gan
Chuang Gan
Citations: 155
h-index: 6

시뮬레이션 환경에서 로봇 데이터 수집을 확장하기 위해서는 인터랙티브한 3D 환경을 자동으로 생성하는 것이 중요합니다. 기존 연구들은 주로 3D 자산 배치에 초점을 맞추었지만, 객체 간의 물리적 관계(예: 접촉, 지지, 균형, 포함)를 간과하는 경우가 많습니다. 이러한 물리적 관계는 테이블 배치, 선반 정리, 상자 포장과 같은 복잡하고 현실적인 조작 시나리오를 만드는 데 필수적입니다. 기존의 3D 레이아웃 생성 방식과 비교했을 때, 복잡한 물리적 환경을 생성하는 데는 다음과 같은 추가적인 어려움이 있습니다. (a) 더 높은 객체 밀도와 복잡성(예: 작은 선반에 수십 권의 책을 배치해야 함), (b) 더 풍부한 지지 관계와 콤팩트한 공간 배치, (c) 공간 배치뿐만 아니라 물리적 특성을 정확하게 모델링해야 한다는 점입니다. 이러한 어려움을 해결하기 위해, 우리는 물리 엔진을 기반으로 작동하는 LLM 에이전트 프레임워크인 PhyScensis를 제안합니다. PhyScensis는 높은 복잡성을 가진 물리적으로 타당한 환경 구성을 생성합니다. 구체적으로, 우리의 프레임워크는 세 가지 주요 구성 요소로 구성됩니다. 첫째, LLM 에이전트는 공간적 및 물리적 속성을 포함하는 자산을 반복적으로 제안합니다. 둘째, 물리 엔진을 갖춘 솔버는 이러한 속성을 3D 환경으로 구현합니다. 셋째, 솔버로부터의 피드백은 에이전트가 구성 내용을 개선하고 풍부하게 만드는 데 사용됩니다. 또한, 우리의 프레임워크는 확률적 프로그래밍을 통해 안정성을 확보하고, 안정성과 공간 관계를 동시에 제어하는 보완적인 휴리스틱을 활용하여 세밀한 텍스트 설명과 수치 매개변수(예: 상대적 위치, 환경 안정성)에 대한 강력한 제어를 제공합니다. 실험 결과, 우리의 방법은 기존 접근 방식보다 환경 복잡성, 시각적 품질 및 물리적 정확성 측면에서 우수한 성능을 보이며, 로봇 조작을 위한 복잡한 물리적 환경 레이아웃을 생성하는 데 유용한 통합 파이프라인을 제공합니다.

Original Abstract

Automatically generating interactive 3D environments is crucial for scaling up robotic data collection in simulation. While prior work has primarily focused on 3D asset placement, it often overlooks the physical relationships between objects (e.g., contact, support, balance, and containment), which are essential for creating complex and realistic manipulation scenarios such as tabletop arrangements, shelf organization, or box packing. Compared to classical 3D layout generation, producing complex physical scenes introduces additional challenges: (a) higher object density and complexity (e.g., a small shelf may hold dozens of books), (b) richer supporting relationships and compact spatial layouts, and (c) the need to accurately model both spatial placement and physical properties. To address these challenges, we propose PhyScensis, an LLM agent-based framework powered by a physics engine, to produce physically plausible scene configurations with high complexity. Specifically, our framework consists of three main components: an LLM agent iteratively proposes assets with spatial and physical predicates; a solver, equipped with a physics engine, realizes these predicates into a 3D scene; and feedback from the solver informs the agent to refine and enrich the configuration. Moreover, our framework preserves strong controllability over fine-grained textual descriptions and numerical parameters (e.g., relative positions, scene stability), enabled through probabilistic programming for stability and a complementary heuristic that jointly regulates stability and spatial relations. Experimental results show that our method outperforms prior approaches in scene complexity, visual quality, and physical accuracy, offering a unified pipeline for generating complex physical scene layouts for robotic manipulation.

2 Citations
0 Influential
10 Altmetric
52.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!