MM-TS: 롱테일 데이터에 대한 대비 학습을 위한 다중 모드 온도 및 마진 스케줄링
MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data
대비 학습은 단일 모드 및 다중 모드 프레임워크 모두에서 기본적인 접근 방식으로 자리 잡았습니다. 이 학습 패러다임은 양의 쌍(positive pairs)을 서로 가깝게 끌어당기는 동시에 음의 쌍(negative pairs)을 서로 멀어지게 밀어냅니다. 단일 모드 설정(예: 이미지 기반 학습)에서 이전 연구에 따르면 이러한 힘의 강도는 온도 파라미터를 통해 제어할 수 있음이 밝혀졌습니다. 본 연구에서는 단일 모드 온도 스케줄링의 개념을 다중 모드 대비 학습으로 확장하는 Multi-Modal Temperature and Margin Schedules (MM-TS)를 제안합니다. 우리의 방법은 훈련 중에 대비 손실(contrastive loss)에서 온도를 동적으로 조정하여 다중 모드 설정에서 인력과 척력(repulsion force)을 조절합니다. 또한, 표준 다중 모드 데이터 세트가 종종 불균형하고 롱테일 분포를 따른다는 점을 감안하여, 각 훈련 샘플의 로컬 분포에 따라 온도를 조정합니다. 특히, 밀집된 클러스터에서 추출된 샘플에는 의미 구조를 더 잘 보존하기 위해 더 높은 온도를 할당합니다. 더욱이, 온도 스케줄링이 최대 마진 프레임워크 내에 효과적으로 통합될 수 있음을 보여주어, 다중 모드 대비 학습에서 두 가지 주요 접근 방식인 InfoNCE 손실과 최대 마진 목적 함수를 통합합니다. 우리는 Flickr30K, MSCOCO, EPIC-KITCHENS-100, YouCook2 등 널리 사용되는 이미지 및 비디오-언어 데이터 세트에서 우리의 접근 방식을 평가했으며, 동적 온도 및 마진 스케줄링이 성능을 향상시키고 해당 분야에서 새로운 최고 성능(state-of-the-art) 결과를 달성함을 보여주었습니다.
Contrastive learning has become a fundamental approach in both uni-modal and multi-modal frameworks. This learning paradigm pulls positive pairs of samples closer while pushing negatives apart. In the uni-modal setting (e.g., image-based learning), previous research has shown that the strength of these forces can be controlled through the temperature parameter. In this work, we propose Multi-Modal Temperature and Margin Schedules (MM-TS), extending the concept of uni-modal temperature scheduling to multi-modal contrastive learning. Our method dynamically adjusts the temperature in the contrastive loss during training, modulating the attraction and repulsion forces in the multi-modal setting. Additionally, recognizing that standard multi-modal datasets often follow imbalanced, long-tail distributions, we adapt the temperature based on the local distribution of each training sample. Specifically, samples from dense clusters are assigned a higher temperature to better preserve their semantic structure. Furthermore, we demonstrate that temperature scheduling can be effectively integrated within a max-margin framework, thereby unifying the two predominant approaches in multi-modal contrastive learning: InfoNCE loss and max-margin objective. We evaluate our approach on four widely used image- and video-language datasets, Flickr30K, MSCOCO, EPIC-KITCHENS-100, and YouCook2, and show that our dynamic temperature and margin schedules improve performance and lead to new state-of-the-art results in the field.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.