앰비언트 데이터 루프: 데이터 세트 개선을 위한 생성 모델
Ambient Dataloops: Generative Models for Dataset Refinement
본 논문에서는 데이터 세트 개선을 위한 반복적인 프레임워크인 앰비언트 데이터 루프를 제안합니다. 이는 확산 모델이 기본 데이터 분포를 학습하는 데 더 용이하도록 설계되었습니다. 현대 데이터 세트는 품질이 매우 다양한 샘플을 포함하며, 이러한 이질적인 데이터에 직접 학습하면 최적의 모델을 얻기 어려울 수 있습니다. 우리는 데이터 세트와 모델의 공동 진화 과정을 제안합니다. 우리 방법의 각 반복 단계에서 데이터 세트는 점진적으로 품질이 향상되고, 그에 따라 모델도 개선됩니다. 파괴적인 자기 소비 루프를 방지하기 위해, 각 생성 단계에서 인공적으로 개선된 샘플을 노이즈가 있는 것으로 취급하지만, 이전 반복 단계보다 약간 낮은 수준의 노이즈를 사용합니다. 또한, 손상 환경에서의 학습을 위해 앰비언트 디퓨전 기술을 활용합니다. 실험적으로, 앰비언트 데이터 루프는 조건 없는 이미지 생성, 텍스트 기반 이미지 생성 및 새로운 단백질 설계 분야에서 최첨단 성능을 달성했습니다. 또한, 제안된 프레임워크의 이점을 설명하는 이론적 근거를 제공합니다. 이 이론적 근거는 데이터 루핑 절차의 효과를 설명합니다.
We propose Ambient Dataloops, an iterative framework for refining datasets that makes it easier for diffusion models to learn the underlying data distribution. Modern datasets contain samples of highly varying quality, and training directly on such heterogeneous data often yields suboptimal models. We propose a dataset-model co-evolution process; at each iteration of our method, the dataset becomes progressively higher quality, and the model improves accordingly. To avoid destructive self-consuming loops, at each generation, we treat the synthetically improved samples as noisy, but at a slightly lower noisy level than the previous iteration, and we use Ambient Diffusion techniques for learning under corruption. Empirically, Ambient Dataloops achieve state-of-the-art performance in unconditional and text-conditional image generation and de novo protein design. We further provide a theoretical justification for the proposed framework that captures the benefits of the data looping procedure.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.