심층 생성 모델의 다양성 편향 분석: 통계적 기원 및 다양성 오류 수정
Exposing Diversity Bias in Deep Generative Models: Statistical Origins and Correction of Diversity Error
심층 생성 모델은 고품질 샘플을 생성하는 데 큰 성공을 거두었으며, 이는 머신 러닝 응용 분야에서 핵심적인 도구로 자리 잡았습니다. 샘플 품질 외에도, 중요한 질문은 훈련된 생성 모델이 실제 데이터 분포의 다양성을 얼마나 충실하게 반영하는가 하는 것입니다. 본 연구에서는 최근 제안된 참조가 없는 엔트로피 기반 다양성 지표인 Vendi 및 RKE를 사용하여 최첨단 모델이 생성한 샘플의 다양성을 대상 데이터 분포에서 추출한 테스트 샘플의 다양성과 직접 비교하여 이 질문에 답합니다. 여러 벤치마크 데이터 세트를 통해 테스트 데이터가 생성된 샘플보다 일관되게 훨씬 높은 Vendi 및 RKE 다양성 점수를 얻는다는 사실을 발견했으며, 이는 최신 생성 모델에서 체계적인 다양성 감소 편향이 있음을 시사합니다. 이 편향의 기원을 이해하기 위해, 우리는 엔트로피 기반 다양성 지표의 유한 샘플 동작을 분석하고, 이 지표들의 기대값이 샘플 크기에 따라 증가한다는 것을 보여줍니다. 이는 유한한 훈련 데이터 세트에서 추정된 다양성이 본질적으로 실제 분포의 다양성을 과소평가할 수 있음을 의미합니다. 결과적으로, 생성자를 최적화하여 실제 데이터 분포와의 거리를 최소화하면 다양성이 손실될 수 있습니다. 마지막으로, 우리는 Vendi 및 RKE를 기반으로 한 다양성을 고려한 정규화 및 지침 전략을 제안하고, 이 전략들이 이 편향을 완화하는 데 잠재적인 효과가 있음을 보여주는 실험적 증거를 제시합니다.
Deep generative models have achieved great success in producing high-quality samples, making them a central tool across machine learning applications. Beyond sample quality, an important yet less systematically studied question is whether trained generative models faithfully capture the diversity of the underlying data distribution. In this work, we address this question by directly comparing the diversity of samples generated by state-of-the-art models with that of test samples drawn from the target data distribution, using recently proposed reference-free entropy-based diversity scores, Vendi and RKE. Across multiple benchmark datasets, we find that test data consistently attains substantially higher Vendi and RKE diversity scores than the generated samples, suggesting a systematic downward diversity bias in modern generative models. To understand the origin of this bias, we analyze the finite-sample behavior of entropy-based diversity scores and show that their expected values increase with sample size, implying that diversity estimated from finite training sets could inherently underestimate the diversity of the true distribution. As a result, optimizing the generators to minimize divergence to empirical data distributions would induce a loss of diversity. Finally, we discuss potential diversity-aware regularization and guidance strategies based on Vendi and RKE as principled directions for mitigating this bias, and provide empirical evidence suggesting their potential to improve the results.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.