2601.14056v1 Jan 20, 2026 cs.CV

POCI-Diff: 3D 레이아웃 유도 확산을 이용한 일관되고 상호작용적인 객체 배치

POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion

Andrea Rigo
Andrea Rigo
Citations: 3
h-index: 1
Luca Stornaiuolo
Luca Stornaiuolo
Citations: 3
h-index: 1
Weijie Wang
Weijie Wang
Citations: 83
h-index: 6
Mauro Martino
Mauro Martino
Citations: 3
h-index: 1
Bruno Lepri
Bruno Lepri
Citations: 163
h-index: 6
N. Sebe
N. Sebe
Citations: 4,374
h-index: 35

우리는 일관되고 상호작용적인 3D 레이아웃 제어 및 편집 기능을 갖춘 텍스트-이미지(T2I) 생성을 위한 확산 기반 접근 방식을 제안한다. 기존 방법들은 2D 단서나 반복적인 복사-워핑-붙여넣기 전략을 사용하여 공간적 일치성을 개선했으나, 종종 객체의 기하학적 구조를 왜곡하고 편집 과정에서 일관성을 유지하지 못하는 문제가 있다. 이러한 한계를 해결하기 위해, 우리는 통합된 확산 과정 내에서 3D 기하학적 제약 조건과 인스턴스 수준의 의미적 결합을 동시에 적용하는 새로운 공식화인 POCI-Diff(일관되고 상호작용적인 객체 배치) 프레임워크를 소개한다. 우리의 방법은 블렌디드 잠재 확산(Blended Latent Diffusion)을 통해 개별 텍스트 설명을 특정 3D 바운딩 박스에 결합함으로써 명시적인 객체별 의미 제어를 가능하게 하며, 이를 통해 복잡한 다중 객체 장면을 단 한 번에 합성할 수 있다. 더 나아가 우리는 픽셀 변형 대신 재생성 방식을 통해 객체 삽입, 제거 및 변환을 지원하는 워핑 없는(warping-free) 생성적 편집 파이프라인을 제안한다. 편집 전반에 걸쳐 객체의 정체성과 일관성을 보존하기 위해, 우리는 IP-Adapter를 사용하여 참조 이미지에 기반해 확산 과정을 조건화한다. 이를 통해 전역적인 장면의 조화를 유지하면서 상호작용적인 3D 편집 과정 동안 일관된 객체 외관을 구현한다. 실험 결과, POCI-Diff는 지정된 3D 레이아웃 및 편집 내용과 일치하는 고품질 이미지를 생성하며, 워핑으로 인한 기하학적 아티팩트를 제거하는 동시에 시각적 충실도와 레이아웃 준수 측면에서 최신 방법들을 능가함을 입증하였다.

Original Abstract

We propose a diffusion-based approach for Text-to-Image (T2I) generation with consistent and interactive 3D layout control and editing. While prior methods improve spatial adherence using 2D cues or iterative copy-warp-paste strategies, they often distort object geometry and fail to preserve consistency across edits. To address these limitations, we introduce a framework for Positioning Objects Consistently and Interactively (POCI-Diff), a novel formulation for jointly enforcing 3D geometric constraints and instance-level semantic binding within a unified diffusion process. Our method enables explicit per-object semantic control by binding individual text descriptions to specific 3D bounding boxes through Blended Latent Diffusion, allowing one-shot synthesis of complex multi-object scenes. We further propose a warping-free generative editing pipeline that supports object insertion, removal, and transformation via regeneration rather than pixel deformation. To preserve object identity and consistency across edits, we condition the diffusion process on reference images using IP-Adapter, enabling coherent object appearance throughout interactive 3D editing while maintaining global scene coherence. Experimental results demonstrate that POCI-Diff produces high-quality images consistent with the specified 3D layouts and edits, outperforming state-of-the-art methods in both visual fidelity and layout adherence while eliminating warping-induced geometric artifacts.

2 Citations
0 Influential
17.5 Altmetric
89.5 Score
Original PDF

AI Analysis

Korean Summary

본 논문은 3D 레이아웃을 기반으로 객체를 일관성 있고 상호작용적으로 배치할 수 있는 텍스트-이미지 생성 프레임워크인 'POCI-Diff'를 제안합니다. 기존 방식들이 2D 단서에 의존하거나 반복적인 '복사-변형-붙여넣기(copy-warp-paste)' 방식을 사용하여 기하학적 왜곡이 발생하고 편집 간 일관성이 떨어지는 문제를 해결하고자 했습니다. POCI-Diff는 3D 기하학적 제약 조건과 인스턴스 수준의 의미론적 바인딩(Semantic Binding)을 통합된 확산(Diffusion) 프로세스 내에서 결합합니다. 이를 통해 복잡한 다중 객체 장면을 한 번의 패스(One-shot)로 생성할 수 있으며, 픽셀 변형 없이 객체를 재생성하여 위치를 이동하거나 크기를 조절하는 'Warping-free' 편집 파이프라인을 제공합니다. 또한 IP-Adapter를 활용해 편집 과정에서 객체의 시각적 정체성을 유지합니다.

Key Innovations

  • 통합된 원샷(One-shot) 생성 프레임워크: 반복적인 생성 없이 3D 바운딩 박스와 개별 텍스트 프롬프트를 결합하여 복잡한 장면을 한 번에 합성
  • 3D 기하학적 제약과 의미론적 제어의 결합: 깊이 기반 ControlNet과 Blended Latent Diffusion을 통합하여 특정 3D 박스에 특정 객체 설명을 명시적으로 바인딩
  • Warping-free 편집 파이프라인: 픽셀을 강제로 늘리거나 줄이는 대신, 대상 위치에서 객체를 재생성하고 원래 위치를 인페인팅하여 기하학적 왜곡 제거
  • IP-Adapter를 통한 일관성 유지: 객체의 위치나 크기를 변경할 때 참조 이미지를 조건으로 사용하여 객체의 시각적 정체성(Identity)을 보존하며 재합성

Learning & Inference Impact

학습 측면에서 이 모델은 고품질 합성 데이터(Flux.1 생성)를 사용하여 깊이 조건부 ControlNet을 미세 조정함으로써, 대규모 실사 3D 데이터셋 없이도 3D 레이아웃의 볼륨감을 학습했습니다. 추론 측면에서 POCI-Diff는 기존의 반복적 접근법(예: Build-a-Scene)과 달리 객체 수에 비례하여 추론 시간이 선형적으로 증가하지 않습니다. 병렬적인 확산 프로세스를 통해 다수의 객체가 있는 장면에서도 추론 시간 증가가 미미하여 높은 계산 효율성을 제공합니다. 또한 메모리 사용량도 효율적으로 관리되어 확장성이 뛰어납니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!