계층적 의미 상관 관계 기반 마스킹 오토인코더를 활용한 비지도 오디오-비디오 표현 학습
Hierarchical Semantic Correlation-Aware Masked Autoencoder for Unsupervised Audio-Visual Representation Learning
약하게 연결되고 레이블이 없는 데이터셋에서 정렬된 다중 모달 임베딩을 학습하는 것은 어려운 과제입니다. 기존 방식은 종종 미리 추출된 특징만을 제공하며, 클립에는 여러 이벤트가 포함되어 있고, 우연한 동시 발생 현상도 발생할 수 있습니다. 우리는 HSC-MAE (Hierarchical Semantic Correlation-Aware Masked Autoencoder)를 제안합니다. HSC-MAE는 세 가지 상호 보완적인 표현 수준에서 의미적 일관성을 강화하는 양방향 교사-학생 프레임워크입니다. (i) DCCA를 통해 글로벌 수준에서 정규 기하학적 상관 관계를 파악하여 오디오 및 비디오 임베딩을 모달리티 불변 공간 내에서 정렬합니다. (ii) 교사 모델이 추출한 소프트 탑-k 유사성 값을 이용하여 로컬 수준에서 이웃 관계의 의미적 상관 관계를 파악하여 의미적으로 유사한 인스턴스 간의 다중 양수 관계 구조를 유지합니다. (iii) 마스킹 오토인코딩을 통해 샘플 수준에서 조건부 충분성 상관 관계를 파악하여 개별 임베딩이 부분적인 관찰 하에서도 구별 가능한 의미적 내용을 유지하도록 합니다. 구체적으로, 학생 MAE 경로는 마스킹된 특징 복구 및 유사성 가중 소프트 탑-k InfoNCE를 사용하여 학습됩니다. CCA 경로를 통해 마스킹되지 않은 입력에 대해 작동하는 EMA 교사 모델은 안정적인 정규 기하학적 구조와 소프트 양수 값을 제공합니다. 학습 가능한 멀티 태스크 가중치는 상충되는 목표를 조율하며, 선택적으로 증류 손실을 사용하여 교사 모델의 기하학적 정보를 학생 모델로 전달합니다. AVE 및 VEGAS 데이터셋에 대한 실험 결과, HSC-MAE는 강력한 비지도 기반 모델보다 상당한 mAP 향상을 보여주었으며, 이는 HSC-MAE가 강력하고 잘 구조화된 오디오-비디오 표현을 생성한다는 것을 입증합니다.
Learning aligned multimodal embeddings from weakly paired, label-free corpora is challenging: pipelines often provide only pre-extracted features, clips contain multiple events, and spurious co-occurrences. We propose HSC-MAE (Hierarchical Semantic Correlation-Aware Masked Autoencoder), a dual-path teacher-student framework that enforces semantic consistency across three complementary levels of representation - from coarse to fine: (i) global-level canonical-geometry correlation via DCCA, which aligns audio and visual embeddings within a shared modality-invariant subspace; (ii) local-level neighborhood-semantics correlation via teacher-mined soft top-k affinities, which preserves multi-positive relational structure among semantically similar instances; and (iii) sample-level conditional-sufficiency correlation via masked autoencoding, which ensures individual embeddings retain discriminative semantic content under partial observation. Concretely, a student MAE path is trained with masked feature reconstruction and affinity-weighted soft top-k InfoNCE; an EMA teacher operating on unmasked inputs via the CCA path supplies stable canonical geometry and soft positives. Learnable multi-task weights reconcile competing objectives, and an optional distillation loss transfers teacher geometry into the student. Experiments on AVE and VEGAS demonstrate substantial mAP improvements over strong unsupervised baselines, validating that HSC-MAE yields robust and well-structured audio-visual representations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.