2603.02767v1 Mar 03, 2026 cs.CV

ITO: 이미지와 텍스트를 하나로 융합하는 방법: 다중 정렬 및 학습 시간 융합의 시너지 효과

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Yaqian Li
Yaqian Li
Citations: 86
h-index: 5
Zidan Wang
Zidan Wang
Citations: 0
h-index: 0
Shuoxi Zhang
Shuoxi Zhang
Citations: 34
h-index: 3
Zonglin Zhao
Zonglin Zhao
Citations: 0
h-index: 0
Zihao Bo
Zihao Bo
Citations: 6
h-index: 1
Rinyoichi Takezoe
Rinyoichi Takezoe
Citations: 36
h-index: 2
Kaiwen Long
Kaiwen Long
Citations: 61
h-index: 1
Kun He
Kun He
Citations: 26
h-index: 2
HanZpeng Liu
HanZpeng Liu
Citations: 0
h-index: 0

이미지-텍스트 대비 사전 학습은 시각적 표현 학습의 주류 패러다임이 되었지만, 기존 방법들은 종종 모달리티에 따라 부분적으로 분리된 표현을 생성하는 경향이 있습니다. 본 논문에서는 이러한 한계를 극복하기 위해 두 가지 시너지 효과를 활용하는 프레임워크인 ITO를 제안합니다. 다중 모달리티 정렬은 다양한 이미지-텍스트 대응 관계를 활용하여 지도 학습을 풍부하게 하고, 경량화된 학습 시간 모달리티 융합 모듈은 구조화된 교차 모달 상호 작용을 강제합니다. 특히, 융합 모듈은 추론 시에 제거되어 기존의 이중 인코더 아키텍처의 효율성을 유지합니다. 광범위한 실험 결과, ITO는 분류, 검색, 그리고 다양한 모달리티 벤치마크에서 강력한 기준 모델들을 꾸준히 능가하는 성능을 보였습니다. 분석 결과, 다중 정렬은 판별력을 향상시키는 반면, 학습 시간 융합은 중요한 구조적 정규화 역할을 수행하여 모달리티 간의 격차를 해소하고, 공격적인 대비 학습에서 흔히 관찰되는 초기 포화 현상을 방지하여 학습 동역학을 안정화시키는 것으로 나타났습니다.

Original Abstract

Image-text contrastive pretraining has become a dominant paradigm for visual representation learning, yet existing methods often yield representations that remain partially organized by modality. We propose ITO, a framework addressing this limitation through two synergistic mechanisms. Multimodal multiple alignment enriches supervision by mining diverse image-text correspondences, while a lightweight training-time multimodal fusion module enforces structured cross-modal interaction. Crucially, the fusion module is discarded at inference, preserving the efficiency of standard dual-encoder architectures. Extensive experiments show that ITO consistently outperforms strong baselines across classification, retrieval, and multimodal benchmarks. Our analysis reveals that while multiple alignment drives discriminative power, training-time fusion acts as a critical structural regularizer -- eliminating the modality gap and stabilizing training dynamics to prevent the early saturation often observed in aggressive contrastive learning.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!