2601.22057v1 Jan 29, 2026 cs.CV

판별자 기반 확산 모델을 이용한 비지도 분해 및 재조합

Unsupervised Decomposition and Recombination with Discriminator-Driven Diffusion Models

Yilun Du
Yilun Du
Citations: 367
h-index: 9
Emile Anand
Emile Anand
Citations: 19
h-index: 2
Archer Wang
Archer Wang
Citations: 2
h-index: 1
Marin Soljačić
Marin Soljačić
Citations: 172
h-index: 7

복잡한 데이터를 요인화된 표현으로 분해하면 재사용 가능한 구성 요소를 발견하고, 구성 요소 재조합을 통해 새로운 샘플을 합성할 수 있습니다. 본 연구에서는 요인 수준의 감독 없이 요인화된 잠재 공간을 학습하는 확산 기반 모델의 맥락에서 이를 조사합니다. 이미지의 경우, 요인은 배경, 조명 및 객체 속성을 나타낼 수 있으며, 로봇 비디오의 경우, 재사용 가능한 동작 구성 요소를 나타낼 수 있습니다. 잠재 요인 발견 및 합성 생성 품질을 향상시키기 위해, 단일 소스 샘플과 여러 소스의 요인을 재조합하여 생성된 샘플을 구별하도록 훈련된 판별기를 통해 적대적 학습 신호를 도입합니다. 생성기가 이 판별기를 속이도록 최적화함으로써, 결과 재조합에서 물리적 및 의미적 일관성을 장려합니다. 제안하는 방법은 CelebA-HQ, Virtual KITTI, CLEVR 및 Falcor3D 데이터셋에서 기존 방법보다 우수한 성능을 보이며, MIG 및 MCC를 통해 측정된 분리도 또한 향상되었습니다. 또한, 로봇 비디오 트래젝토리의 새로운 응용 분야를 제시합니다. 학습된 동작 구성 요소를 재조합하여 다양한 시퀀스를 생성함으로써, LIBERO 벤치마크에서 탐색을 위한 상태 공간 범위를 크게 확장할 수 있습니다.

Original Abstract

Decomposing complex data into factorized representations can reveal reusable components and enable synthesizing new samples via component recombination. We investigate this in the context of diffusion-based models that learn factorized latent spaces without factor-level supervision. In images, factors can capture background, illumination, and object attributes; in robotic videos, they can capture reusable motion components. To improve both latent factor discovery and quality of compositional generation, we introduce an adversarial training signal via a discriminator trained to distinguish between single-source samples and those generated by recombining factors across sources. By optimizing the generator to fool this discriminator, we encourage physical and semantic consistency in the resulting recombinations. Our method outperforms implementations of prior baselines on CelebA-HQ, Virtual KITTI, CLEVR, and Falcor3D, achieving lower FID scores and better disentanglement as measured by MIG and MCC. Furthermore, we demonstrate a novel application to robotic video trajectories: by recombining learned action components, we generate diverse sequences that significantly increase state-space coverage for exploration on the LIBERO benchmark.

2 Citations
0 Influential
4.5 Altmetric
24.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!