데이터 증류를 넘어: 확산 모델 기반의 손실 없는 데이터 집중화 기술 - 분포 정렬을 통한 접근
Beyond Dataset Distillation: Lossless Dataset Concentration via Diffusion-Assisted Distribution Alignment
대규모 데이터셋의 높은 비용과 접근성 문제는 대규모 시각 인식 시스템 개발을 저해합니다. 데이터 증류(Dataset Distillation)는 효율적인 학습, 저장, 전송 및 개인 정보 보호를 위해 소형의 대체 데이터셋을 생성함으로써 이러한 문제를 해결합니다. 기존의 최첨단 확산 모델 기반 데이터 증류 방법은 이론적 근거 부족, 대량 데이터에 대한 낮은 효율성, 그리고 데이터가 없는 환경에서의 부적합성이라는 세 가지 문제점을 안고 있습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 확산 모델의 사용을 정당화하는 이론적 프레임워크를 제시하며, 데이터 증류와 분포 정렬의 동등성을 증명하고, 데이터 증류 패러다임의 고유한 효율성 한계를 밝힙니다. 또한, 확산 기반의 Noise-Optimization (NOpt) 방법을 사용하여 작지만 대표적인 샘플 집합을 생성하는 Dataset Concentration (DsCo) 프레임워크를 제안합니다. 선택적으로, 'Doping'이라는 방법을 통해 원래 데이터셋에서 선택된 샘플을 합성된 샘플과 혼합하여 데이터 증류의 효율성 한계를 극복할 수 있습니다. DsCo는 데이터가 있는 환경과 데이터가 없는 환경 모두에 적용 가능하며, 데이터 양이 적은 경우 최첨단 성능을 달성하고, 데이터 양이 많은 경우 데이터셋 크기를 거의 절반으로 줄이면서도 성능 저하 없이 활용될 수 있습니다.
The high cost and accessibility problem associated with large datasets hinder the development of large-scale visual recognition systems. Dataset Distillation addresses these problems by synthesizing compact surrogate datasets for efficient training, storage, transfer, and privacy preservation. The existing state-of-the-art diffusion-based dataset distillation methods face three issues: lack of theoretical justification, poor efficiency in scaling to high data volumes, and failure in data-free scenarios. To address these issues, we establish a theoretical framework that justifies the use of diffusion models by proving the equivalence between dataset distillation and distribution matching, and reveals an inherent efficiency limit in the dataset distillation paradigm. We then propose a Dataset Concentration (DsCo) framework that uses a diffusion-based Noise-Optimization (NOpt) method to synthesize a small yet representative set of samples, and optionally augments the synthetic data via "Doping", which mixes selected samples from the original dataset with the synthetic samples to overcome the efficiency limit of dataset distillation. DsCo is applicable in both data-accessible and data-free scenarios, achieving SOTA performances for low data volumes, and it extends well to high data volumes, where it nearly reduces the dataset size by half with no performance degradation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.