헬링거 다중 모드 변분 오토인코더
Hellinger Multimodal Variational Autoencoders
다중 모드 변분 오토인코더(VAE)는 다양한 모달리티를 활용한 약하게 감독되는 생성 학습에 널리 사용됩니다. 기존 방법들은 주로 전문가 곱(PoE), 전문가 혼합(MoE) 또는 이들의 조합을 사용하여 단일 모드 추론 분포를 결합하여 결합 사후 분포를 근사합니다. 본 연구에서는 확률적 의견 결합이라는 최적화 기반 접근 방식을 통해 다중 모드 추론을 재검토합니다. 우리는 $α=0.5$인 홀더 결합에서 시작하며, 이는 $α$-발산 계열에서 유일한 대칭적인 방법입니다. 그리고 모멘트 매칭 근사를 유도하여 헬링거(Hellinger)라고 명명했습니다. 우리는 이러한 근사를 활용하여 HELVAE라는 다중 모드 VAE를 제안하며, 이는 서브샘플링을 피하고 효율적이면서도 효과적인 모델을 제공합니다. HELVAE는 (i) 추가적인 모달리티가 관찰됨에 따라 더욱 표현력이 풍부한 잠재 표현을 학습하고, (ii) 실험적으로 생성된 데이터의 일관성과 품질 간의 더 나은 균형을 달성하여 최첨단 다중 모드 VAE 모델보다 우수한 성능을 보입니다.
Multimodal variational autoencoders (VAEs) are widely used for weakly supervised generative learning with multiple modalities. Predominant methods aggregate unimodal inference distributions using either a product of experts (PoE), a mixture of experts (MoE), or their combinations to approximate the joint posterior. In this work, we revisit multimodal inference through the lens of probabilistic opinion pooling, an optimization-based approach. We start from Hölder pooling with $α=0.5$, which corresponds to the unique symmetric member of the $α\text{-divergence}$ family, and derive a moment-matching approximation, termed Hellinger. We then leverage such an approximation to propose HELVAE, a multimodal VAE that avoids sub-sampling, yielding an efficient yet effective model that: (i) learns more expressive latent representations as additional modalities are observed; and (ii) empirically achieves better trade-offs between generative coherence and quality, outperforming state-of-the-art multimodal VAE models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.