EmergentBridge: 통합 다중 모드 임베딩 모델에서 제로샷 교차 모드 전이 성능 향상
EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models
통합 다중 모드 임베딩 공간은 교차 모드 검색 및 제로샷 인식과 같은 실용적인 응용 분야의 기반이 됩니다. 그러나 많은 실제 환경에서 지도 데이터는 일부 모드 쌍(예: 이미지-텍스트)에만 제공되는 경우가 많으며, 나머지 모드 쌍(예: 오디오-깊이, 적외선-오디오)은 연결이 약하여 제로샷 전이 성능이 저하됩니다. 따라서 통합 임베딩 시스템을 새로운 작업에 적용하기 위해서는 이러한 희소 쌍 데이터 환경에 대한 해결책이 필수적입니다. 본 논문에서는 모든 모드 쌍에 대한 광범위한 지도 데이터 없이도, 연결되지 않은 모드 쌍의 성능을 향상시키는 임베딩 수준의 브리지 프레임워크인 **EmergentBridge**를 제안합니다. 핵심적인 관찰은 새로운 모드를 합성된 프록시 임베딩에 직접 연결하면 기존 검색/분류에 의존하는 기준 임베딩과의 정렬 구조가 손상되는 **그라디언트 간섭** 현상이 발생한다는 것입니다. EmergentBridge는 (i) 기준 임베딩으로부터 **잡음이 포함된 브리지 기준 임베딩**(이미 정렬된 모드의 프록시 임베딩)을 학습하고, (ii) 기준 임베딩과의 정렬 방향에 수직인 부분 공간에서만 프록시 정렬을 강제하여 기준 임베딩의 정렬을 유지하면서 연결되지 않은 모드 간의 연결을 강화함으로써 이러한 문제를 해결합니다. 9개의 다양한 모드 데이터셋에 대한 실험 결과, EmergentBridge는 기존 방법보다 제로샷 분류 및 검색 성능이 우수했으며, 강력한 새로운 정렬 능력을 입증했습니다.
Unified multimodal embedding spaces underpin practical applications such as cross-modal retrieval and zero-shot recognition. In many real deployments, however, supervision is available only for a small subset of modality pairs (e.g., image--text), leaving \emph{unpaired} modality pairs (e.g., audio$\leftrightarrow$depth, infrared$\leftrightarrow$audio) weakly connected and thus performing poorly on zero-shot transfer. Addressing this sparse-pairing regime is therefore essential for scaling unified embedding systems to new tasks without curating exhaustive pairwise data. We propose \textbf{EmergentBridge}, an embedding-level bridging framework that improves performance on these unpaired pairs \emph{without requiring exhaustive pairwise supervision}. Our key observation is that naively aligning a new modality to a synthesized proxy embedding can introduce \emph{gradient interference}, degrading the anchor-alignment structure that existing retrieval/classification relies on. EmergentBridge addresses this by (i) learning a mapping that produces a \emph{noisy bridge anchor} (a proxy embedding of an already-aligned modality) from an anchor embedding, and (ii) enforcing proxy alignment only in the subspace orthogonal to the anchor-alignment direction, preserving anchor alignment while strengthening non-anchor connectivity. Across nine datasets spanning multiple modalities, EmergentBridge consistently outperforms prior binding baselines on zero-shot classification and retrieval, demonstrating strong emergent alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.