통합 다중 모드 검색을 위한 병목 토큰
Bottleneck Tokens for Unified Multimodal Retrieval
디코더 전용 다중 모드 대규모 언어 모델(MLLM)을 통합 다중 모드 검색에 적용하는 데는 두 가지 구조적 격차가 존재합니다. 첫째, 기존 방법은 암시적 풀링에 의존하는데, 이는 표준 어휘 토큰(예: <EOS>)의 숨겨진 상태를 시퀀스 레벨 표현으로 과도하게 사용하며, 이는 정보 집계를 위해 설계되지 않은 메커니즘입니다. 둘째, 대비 미세 조정은 임베딩이 무엇과 일치해야 하는지를 지정하지만, 정보가 어떻게 임베딩으로 압축되어야 하는지에 대한 토큰 레벨의 지침은 제공하지 않습니다. 우리는 이러한 두 가지 격차를 보완적인 두 가지 구성 요소를 통해 해결합니다. 구조적으로, 우리는 학습 가능한 토큰 집합인 병목 토큰(BToks)을 도입합니다. BToks는 고정 용량의 명시적 풀링 메커니즘 역할을 합니다. 학습 과정에서, 우리는 생성 정보 응축(Generative Information Condensation)이라는 새로운 학습 목표를 제안합니다. 이는 다음 토큰 예측 목표와 함께 응축 마스크를 사용하여 대상 토큰과 쿼리 토큰 간의 직접적인 주의 연결을 끊습니다. 이렇게 함으로써 모든 예측 신호가 BToks를 통과하게 되어, 생성 손실을 의미 압축을 위한 밀집된 토큰 레벨의 지도 학습으로 변환합니다. 추론 시, 입력과 BToks만 단일 순전파 과정으로 처리하며, 기존의 마지막 토큰 풀링 방식에 비해 무시할 만한 오버헤드만 발생합니다. MMEB-V2 데이터셋(78개 데이터셋, 3가지 모드, 9가지 메타 태스크)에서, 우리의 접근 방식은 유사한 데이터 조건 하에서 20억 파라미터 규모의 모델 중에서 최첨단 성능을 달성했으며, 전반적인 점수가 59.0점으로 VLM2Vec-V2보다 3.6점 높고, 특히 의미적으로 복잡한 태스크(예: 비디오 질의 응답)에서 12.6점의 상당한 향상을 보였습니다.
Adapting decoder-only multimodal large language models (MLLMs) for unified multimodal retrieval faces two structural gaps. First, existing methods rely on implicit pooling, which overloads the hidden state of a standard vocabulary token (e.g., <EOS>) as the sequence-level representation, a mechanism never designed for information aggregation. Second, contrastive fine-tuning specifies what the embedding should match but provides no token-level guidance on how information should be compressed into it. We address both gaps with two complementary components. Architecturally, we introduce Bottleneck Tokens (BToks), a small set of learnable tokens that serve as a fixed-capacity explicit pooling mechanism. For training, we propose Generative Information Condensation: a next-token prediction objective coupled with a Condensation Mask that severs the direct attention path from target tokens to query tokens. All predictive signals are thereby forced through the BToks, converting the generative loss into dense, token-level supervision for semantic compression. At inference time, only the input and BToks are processed in a single forward pass with negligible overhead over conventional last-token pooling. On MMEB-V2 (78 datasets, 3 modalities, 9 meta-tasks), our approach achieves state-of-the-art among 2B-scale methods under comparable data conditions, attaining an Overall score of 59.0 (+3.6 over VLM2Vec-V2) with substantial gains on semantically demanding tasks (e.g., +12.6 on Video-QA).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.