다중 모드 임베딩 공간에서의 확산 모델 및 자기 회귀 시각 언어 모델 분석
Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space
임베딩 모델은 의미 검색 및 검색 증강 생성과 같은 현대 AI 시스템의 핵심 구성 요소입니다. 최근 대규모 기초 모델의 발전은 대규모 언어 모델(LLM), 시각 언어 모델(VLM) 및 다중 모드 LLM을 기반으로 하는 임베딩 모델을 포함하여 임베딩 모델 개발을 크게 가속화했습니다. 최근에는 대규모 확산 언어 모델(dLLM) 및 다중 모드 dLLM이 자기 회귀 모델의 경쟁적인 대안으로 등장하여 양방향 어텐션 및 병렬 생성과 같은 장점을 제공합니다. 이러한 발전은 자연스럽게 중요한 질문을 제기합니다. 다중 모드 dLLM이 효과적인 다중 모드 임베딩 모델로 사용될 수 있는가? 이에 대한 답을 찾기 위해, 우리는 다중 모드 dLLM을 임베딩 모델로 변환하는 첫 번째 체계적인 연구를 제시합니다. 우리는 최첨단 다중 모드 dLLM과 자기 회귀 VLM을 분류, 시각 질의 응답 및 정보 검색이라는 세 가지 유형의 임베딩 작업에 대해 평가했습니다. 우리의 결과는 다중 모드 dLLM 임베딩이 일반적으로 자기 회귀 VLM에 비해 성능이 떨어진다는 것을 보여줍니다. 더 강력한 확산 기반 모델인 LaViDa는 분류에서 3.5점, VQA에서 2.5점, 검색 작업에서 4.4점 차이로 뒤쳐지는 반면, 다른 확산 기반 모델인 MMaDA는 모든 작업에서 20점을 초과하는 상당한 성능 격차를 보입니다. 추가 분석 결과, 확산 기반 모델에서 이미지-텍스트 정렬이 충분하지 않아 임베딩 성능의 제한 사항이 발생하는 것으로 나타났습니다.
Embedding models are a fundamental component of modern AI systems such as semantic search and retrieval-augmented generation. Recent advances in large foundation models have substantially accelerated the development of embedding models, including those based on Large Language Models (LLMs), Vision Language Models (VLMs), and Multimodal LLMs. More recently, Large Diffusion Language Models (dLLMs) and Multimodal dLLMs have emerged as competitive alternatives to autoregressive models, offering advantages such as bidirectional attention and parallel generation. This progress naturally raises a critical yet unexplored question: can Multimodal dLLMs serve as effective multimodal embedding models? To answer this, we present the first systematic study of converting Multimodal dLLMs into embedding models. We evaluate state-of-the-art Multimodal dLLMs and Autoregressive VLMs across three categories of embedding tasks: classification, visual question answering, and information retrieval. Our results show that Multimodal dLLM embeddings generally underperform their autoregressive VLM counterparts. The stronger diffusion-based model, LaViDa, lags by only 3.5 points on classification, 2.5 points on VQA, and 4.4 points on retrieval tasks, whereas the other diffusion-based model, MMaDA, exhibits substantially larger performance gaps, exceeding 20 points across all tasks. Further analysis reveals insufficient image-text alignment in diffusion-based models, accounting for the observed limitations in their embedding performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.