DeepInv: 빠르고 정확한 디퓨전 역전환을 위한 새로운 자기 지도 학습 접근 방식
DeepInv: A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion
디퓨전 역전환은 디퓨전 모델에서 이미지의 노이즈를 복원하는 작업으로, 제어 가능한 디퓨전 이미지 편집에 필수적입니다. 현재 디퓨전 역전환은 유효한 지도 신호의 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 따라서 대부분의 기존 방법은 근사 기반 솔루션을 사용하지만, 이는 종종 성능이나 효율성을 저해하는 단점이 있습니다. 이러한 단점을 해결하기 위해 본 논문에서는 Deep Inversion (DeepInv)이라는 새로운 자기 지도 디퓨전 역전환 방법을 제안합니다. 우리는 정답 노이즈 레이블이 필요하지 않도록, 실제 이미지로부터 고품질의 가짜 노이즈를 생성하기 위한 자기 지도 학습 목표와 데이터 증강 전략을 도입했습니다. 이러한 두 가지 혁신적인 설계를 바탕으로, DeepInv는 파라미터화된 역전환 솔버를 학습하기 위한 반복적이고 다중 스케일 학습 체제를 갖추고 있어, 빠르고 정확한 이미지-노이즈 매핑을 달성합니다. 우리가 아는 한, 이는 역전환 노이즈를 단계별로 예측하는 학습 가능한 솔버를 제시하는 첫 번째 시도입니다. 광범위한 실험 결과, DeepInv는 비교 방법보다 훨씬 더 나은 성능과 추론 속도를 달성했습니다. 예를 들어, COCO 데이터셋에서 EasyInv보다 +40.435%의 SSIM 성능 향상과 ReNoise보다 +9887.5%의 속도 향상을 보였습니다. 또한, 우리의 학습 가능한 솔버 설계는 연구 커뮤니티에 유용한 통찰력을 제공할 수 있습니다. 코드 및 모델 파라미터는 https://github.com/potato-kitty/DeepInv 에서 공개될 예정입니다.
Diffusion inversion is a task of recovering the noise of an image in a diffusion model, which is vital for controllable diffusion image editing. At present, diffusion inversion still remains a challenging task due to the lack of viable supervision signals. Thus, most existing methods resort to approximation-based solutions, which however are often at the cost of performance or efficiency. To remedy these shortcomings, we propose a novel self-supervised diffusion inversion approach in this paper, termed Deep Inversion (DeepInv). Instead of requiring ground-truth noise annotations, we introduce a self-supervised objective as well as a data augmentation strategy to generate high-quality pseudo noises from real images without manual intervention. Based on these two innovative designs, DeepInv is also equipped with an iterative and multi-scale training regime to train a parameterized inversion solver, thereby achieving the fast and accurate image-to-noise mapping. To the best of our knowledge, this is the first attempt of presenting a trainable solver to predict inversion noise step by step. The extensive experiments show that our DeepInv can achieve much better performance and inference speed than the compared methods, e.g., +40.435% SSIM than EasyInv and +9887.5% speed than ReNoise on COCO dataset. Moreover, our careful designs of trainable solvers can also provide insights to the community. Codes and model parameters will be released in https://github.com/potato-kitty/DeepInv.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.