2604.25334v1 Apr 28, 2026 cs.LG

VAE-Inf: 통계적으로 해석 가능한 불균형 분류를 위한 생성 모델 프레임워크

VAE-Inf: A statistically interpretable generative paradigm for imbalanced classification

Ruijian Han
Ruijian Han
Citations: 100
h-index: 3
Hongfei Wu
Hongfei Wu
Citations: 2
h-index: 1
Yancheng Yuan
Yancheng Yuan
Citations: 93
h-index: 3

불균형 분류는 머신러닝 분야에서 널리 존재하는 과제이며, 특히 소수 샘플이 충분히 많지 않아 안정적인 판별 경계를 제공하지 못하는 경우 더욱 심각합니다. 이러한 극단적인 상황에서 기존 모델은 종종 불안정한 의사 결정 경계를 나타내고, 신뢰할 수 있는 오차 제어를 제공하지 못합니다. 생성 모델링과 판별 분류 간의 격차를 해소하기 위해, 우리는 딥 표현 학습과 통계적으로 해석 가능한 가설 검정을 통합하는 두 단계 프레임워크인 **VAE-Inf**를 제안합니다. 첫 번째 단계에서는 변분 오토인코더(VAE)를 사용하여 다수 클래스 데이터만으로 학습하여 기본적인 참조 분포를 학습하는 일-클래스 모델링 방식을 채택합니다. 결과적으로 생성된 잠재 분포는 Wasserstein barycenter를 통해 집계되어, 기하학적으로 타당한 기준점을 제공하는 글로벌 가우시안 참조 모델을 구축합니다. 두 번째 단계에서는 제한된 수의 소수 샘플을 사용하여 인코더를 미세 조정함으로써 이 생성 모델을 판별 분류기로 변환합니다. 이를 위해, 우리는 분산 정규화된 투영 통계에 기반한 확률적 분리를 강제하는 새로운 분포 인식 손실 함수를 사용합니다. 추론을 위해, 우리는 투영 기반 점수를 도입하여 자연스러운 가설 검정 해석을 가능하게 하며, 이를 통해 분포에 대한 제한적인 가정을 하지 않고도 자유로운 보정 절차를 수행할 수 있습니다. 광범위한 실제 데이터셋에 대한 실험 결과, 우리 프레임워크가 다른 방법들과 경쟁력 있는 성능을 보이는 것을 확인했습니다. 코드는 요청 시 제공됩니다.

Original Abstract

Imbalanced classification remains a pervasive challenge in machine learning, particularly when minority samples are too scarce to provide a robust discriminative boundary. In such extreme scenarios, conventional models often suffer from unstable decision boundaries and a lack of reliable error control. To bridge the gap between generative modeling and discriminative classification, we propose a two-stage framework \textbf{VAE-Inf} that integrates deep representation learning with statistically interpretable hypothesis testing. In the first stage, we adopt a one-class modeling perspective by training a variational autoencoder (VAE) exclusively on majority-class data to capture the underlying reference distribution. The resulting latent posteriors are aggregated via a Wasserstein barycenter to construct a global Gaussian reference model, providing a geometrically principled baseline for the majority class. In the second stage, we transform this generative foundation into a discriminative classifier by fine-tuning the encoder with limited minority samples. This is achieved through a novel distribution-aware loss that enforces probabilistic separation between classes based on variance-normalized projection statistics. For inference, we introduce a projection-based score that admits a natural hypothesis testing interpretation, allowing for a distribution-free calibration procedure. This approach yields exact finite-sample control of the Type-I error (false positive rate) without relying on restrictive parametric assumptions. Extensive experiments on diverse real-world benchmarks demonstrate that our framework achieves competitive performance against other approaches. The codes are available upon request.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!