원칙에 기반한 데이터 증류 연구: 스펙트럼 분포 관점
Towards Principled Dataset Distillation: A Spectral Distribution Perspective
데이터 증류(DD)는 대규모 데이터 세트를 효율적인 모델 학습을 위한 소형의 합성 데이터 세트로 압축하는 것을 목표로 합니다. 그러나 기존의 DD 방법들은 불균형 데이터 세트에서 상당한 성능 저하를 보이는 경향이 있습니다. 본 연구에서는 이러한 문제의 근본적인 원인으로, 분포 불일치 측정에 대한 휴리스틱한 설계 선택과 불균형 클래스에 대한 균일한 처리를 지목합니다. 이러한 한계를 극복하기 위해, 우리는 클래스 정보를 고려한 스펙트럼 분포 정합(CSDM)을 제안합니다. CSDM은 잘 정의된 커널 함수의 스펙트럼을 이용하여 분포 정렬을 재구성합니다. 이 기술은 원래 샘플을 주파수 공간으로 매핑하여 스펙트럼 분포 거리(SDD)를 계산합니다. 또한, 클래스 불균형 문제를 완화하기 위해, 우리는 SDD의 통합 형태를 활용하여 진폭-위상 분해를 수행하여, 꼬리 클래스에서의 현실성을 적응적으로 우선시합니다. CIFAR-10-LT 데이터 세트에서, 클래스당 10개의 이미지만을 사용하여, CSDM은 최첨단 DD 방법보다 14.0% 향상된 성능을 달성했으며, 꼬리 클래스에 있는 이미지 수가 500개에서 25개로 감소하더라도 5.7%의 성능 저하만 발생하여, 불균형 데이터에 대한 높은 안정성을 보여줍니다.
Dataset distillation (DD) aims to compress large-scale datasets into compact synthetic counterparts for efficient model training. However, existing DD methods exhibit substantial performance degradation on long-tailed datasets. We identify two fundamental challenges: heuristic design choices for distribution discrepancy measure and uniform treatment of imbalanced classes. To address these limitations, we propose Class-Aware Spectral Distribution Matching (CSDM), which reformulates distribution alignment via the spectrum of a well-behaved kernel function. This technique maps the original samples into frequency space, resulting in the Spectral Distribution Distance (SDD). To mitigate class imbalance, we exploit the unified form of SDD to perform amplitude-phase decomposition, which adaptively prioritizes the realism in tail classes. On CIFAR-10-LT, with 10 images per class, CSDM achieves a 14.0% improvement over state-of-the-art DD methods, with only a 5.7% performance drop when the number of images in tail classes decreases from 500 to 25, demonstrating strong stability on long-tailed data.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.