현실 세계 이미지 복원 및 조작을 위한 고품질 확산 역전산에서 잠재 편향 정렬
Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation
최근 연구에 따르면 텍스트-이미지 확산 모델은 텍스트 프롬프트를 기반으로 고품질 이미지를 생성할 수 있습니다. 하지만 이러한 모델을 사용하여 초기 노이즈로부터 실제 세계 이미지를 생성하거나 근사할 수 있을까요? 이것이 바로 확산 역전산 문제이며, 이는 확산 모델과 실제 세계 시나리오를 연결하는 기본적인 구성 요소입니다. 그러나 기존의 확산 역전산 방법은 종종 낮은 복원 품질이나 취약성을 나타냅니다. 해결해야 할 두 가지 주요 과제는 다음과 같습니다. (1) 확산 과정 동안 역전산 및 생성 경로 간의 불일치, (2) 확산 역전산 과정과 VQ 오토인코더(VQAE) 복원 간의 불일치. 이러한 과제를 해결하기 위해, 우리는 각 역전산 단계에서 잠재 편향 벡터를 도입하며, 이 벡터는 역전산 및 생성 경로 간의 불일치를 줄이기 위해 학습됩니다. 우리는 이 전략을 잠재 편향 최적화(LBO)라고 부릅니다. 더욱이, 우리는 이미지 잠재 표현을 조정하여 학습함으로써 확산 역전산 및 VQAE 복원 과정을 근사적으로 공동 최적화합니다. 이 기술은 이미지 잠재 부스팅(ILB)이라고 합니다. 광범위한 실험 결과는 제안된 방법이 확산 모델의 이미지 복원 품질을 크게 향상시킬 뿐만 아니라 이미지 편집 및 희귀 개념 생성과 같은 후속 작업의 성능도 향상시킨다는 것을 보여줍니다.
Recent research has shown that text-to-image diffusion models are capable of generating high-quality images guided by text prompts. But can they be used to generate or approximate real-world images from the seed noise? This is known as the diffusion inversion problem, which serves as a fundamental building block for bridging diffusion models and real-world scenarios. However, existing diffusion inversion methods often suffer from low reconstruction quality or weak robustness. Two major challenges need to be carefully addressed: (1) the misalignment between the inversion and generation trajectories during the diffusion process, and (2) the mismatch between the diffusion inversion process and the VQ autoencoder (VQAE) reconstruction. To address these challenges, we introduce a latent bias vector at each inversion step, which is learned to reduce the misalignment between inversion and generation trajectories. We refer to this strategy as Latent Bias Optimization (LBO). Furthermore, we perform an approximate joint optimization of the diffusion inversion and VQAE reconstruction processes by learning to adjust the image latent representation, which serves as the connecting interface between them. We refer to this technique as Image Latent Boosting (ILB). Extensive experimental results demonstrate that the proposed method significantly improves the image reconstruction quality of the diffusion model, as well as the performance of downstream tasks, including image editing and rare concept generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.