다중 모달 대규모 언어 모델을 위한 모달리티 갭 기반 서브스페이스 정렬 학습 패러다임
Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
다중 모달 대비 학습이 시각 및 언어 표현을 정렬하는 데 성공적이었음에도 불구하고, '모달리티 갭(Modality Gap)'이라는 지속적인 기하학적 이상 현상이 존재합니다. 이는 동일한 의미를 표현하는 서로 다른 모달리티의 임베딩이 체계적으로 다른 영역에 위치한다는 것을 의미합니다. 기존의 갭 해소 시도는 대부분 단순화된 등방성 가정을 기반으로 하여, 대규모 환경에서의 적용에 제한이 있었습니다. 본 논문에서는 이러한 한계를 극복하기 위해, 모달리티 갭의 기하학적 형태를 정확하게 파악하고 이를 효율적인 모델 확장에 활용합니다. 먼저, 우리는 '고정 프레임 모달리티 갭 이론(Fixed-frame Modality Gap Theory)'을 제안합니다. 이는 고정된 참조 프레임 내에서 모달리티 갭을 안정적인 편향과 비등방성 잔차로 분해합니다. 이러한 정밀한 모델링을 바탕으로, 학습이 필요 없는 모달리티 정렬 전략인 'ReAlign'을 소개합니다. ReAlign은 방대한 양의 쌍을 이루지 않은 데이터에서 얻은 통계 정보를 활용하여, 앵커(Anchor), 트레이스(Trace), 중심점 정렬(Centroid Alignment)이라는 세 단계의 과정을 통해 텍스트 표현을 이미지 표현 분포에 정렬하고, 이를 통해 기하학적 불일치를 명시적으로 수정합니다. ReAlign을 기반으로, 우리는 다중 모달 대규모 언어 모델(MLLMs)을 위한 확장 가능한 학습 패러다임인 'ReVision'을 제안합니다. ReVision은 ReAlign을 사전 학습 단계에 통합하여, 모델이 시각 지시 튜닝 전에 쌍을 이루지 않은 텍스트 데이터를 통해 시각 표현의 분포를 학습할 수 있도록 합니다. 또한, 대규모의 고품질 이미지-텍스트 쌍이 필요하지 않습니다. 우리의 프레임워크는 통계적으로 정렬된 쌍을 이루지 않은 데이터가 값비싼 이미지-텍스트 쌍을 효과적으로 대체할 수 있음을 보여주며, 이는 MLLM의 효율적인 확장을 위한 견고한 경로를 제공합니다.
Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, the Modality Gap, remains: embeddings of distinct modalities expressing identical semantics occupy systematically offset regions. Prior approaches to bridge this gap are largely limited by oversimplified isotropic assumptions, hindering their application in large-scale scenarios. In this paper, we address these limitations by precisely characterizing the geometric shape of the modality gap and leveraging it for efficient model scaling. First, we propose the Fixed-frame Modality Gap Theory, which decomposes the modality gap within a frozen reference frame into stable biases and anisotropic residuals. Guided by this precise modeling, we introduce ReAlign, a training-free modality alignment strategy. Utilizing statistics from massive unpaired data, ReAlign aligns text representation into the image representation distribution via a three-step process comprising Anchor, Trace, and Centroid Alignment, thereby explicitly rectifying geometric misalignment. Building on ReAlign, we propose ReVision, a scalable training paradigm for Multimodal Large Language Models (MLLMs). ReVision integrates ReAlign into the pretraining stage, enabling the model to learn the distribution of visual representations from unpaired text before visual instruction tuning, without the need for large-scale, high-quality image-text pairs. Our framework demonstrates that statistically aligned unpaired data can effectively substitute for expensive image-text pairs, offering a robust path for the efficient scaling of MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.