2603.13427v1 Mar 13, 2026 cs.CV

MIBench: 다중 모드 상호작용을 평가하는 방법

MIBench: Evaluating LMMs on Multimodal Interaction

Yuzhuo Miao
Yuzhuo Miao
Citations: 12
h-index: 3
Ziheng Chen
Ziheng Chen
Citations: 20
h-index: 2
Zequn Yang
Zequn Yang
Citations: 108
h-index: 5
Yake Wei
Yake Wei
Citations: 1,221
h-index: 13
Hao-Cheng Ni
Hao-Cheng Ni
Citations: 1
h-index: 1
Haodong Duan
Haodong Duan
Chinese University of HongKong
Citations: 9,346
h-index: 37
Kai Chen
Kai Chen
Citations: 980
h-index: 9
Di Hu
Di Hu
Citations: 309
h-index: 5

다양한 다중 모드 시나리오에서 모델은 특정 작업의 요구 사항에 따라 여러 모드 간의 정보를 통합하고 활용해야 합니다. 모드 간의 다양한 통합 방식을 "다중 모드 상호작용"이라고 합니다. 모델이 다양한 다중 모드 상호작용을 얼마나 잘 처리하는지는 해당 모델의 다중 모드 능력을 크게 좌우합니다. 본 논문에서는 대규모 다중 모드 모델(LMM)의 다중 모드 상호작용 능력을 평가하기 위한 포괄적인 벤치마크인 MIBench를 소개합니다. MIBench는 각 인스턴스를 시각 및 텍스트 컨텍스트를 포함하는 (시각 컨텍스트, 텍스트 컨텍스트, 작업) 3가지 요소로 구성된 튜플로 정의하며, LMM이 작업을 효과적으로 완료하기 위해서는 적절한 형태의 다중 모드 상호작용을 활용해야 합니다. MIBench는 모델의 능력을 세 가지 주요 측면에서 평가합니다. 즉, 시각 중심 또는 텍스트 중심의 단서로부터 정보를 추출하는 능력과, 모드 간의 상호 작용을 통해 새로운 정보를 생성하는 능력입니다. 각 상호작용 능력은 인지 수준에 따라 세 단계(인지, 이해, 추론)로 계층적으로 평가됩니다. MIBench는 32개의 다양한 작업에 걸쳐 10,000개 이상의 시각-텍스트 컨텍스트 쌍으로 구성되어 있습니다. 최첨단 LMM 모델에 대한 평가 결과, (1) 모델 파라미터 및 훈련 데이터의 증가에도 불구하고 LMM의 다중 모드 상호작용 능력은 여전히 제한적입니다. (2) 시각 정보를 처리할 때 텍스트 모드에 쉽게 영향을 받습니다. (3) 대부분의 모델은 기본적인 수준의 다중 모드 시너지 능력을 가지고 있습니다. (4) 기본적으로 훈련된 다중 모드 모델은 기본적인 상호작용 능력에서 상당한 결함을 보입니다. 이러한 관찰 결과는 향후 더욱 향상된 다중 모드 능력을 갖춘 LMM을 개발하는 데 중요한 참고 자료가 될 것으로 기대됩니다.

Original Abstract

In different multimodal scenarios, it needs to integrate and utilize information across modalities in a specific way based on the demands of the task. Different integration ways between modalities are referred to as "multimodal interaction". How well a model handles various multimodal interactions largely characterizes its multimodal ability. In this paper, we introduce MIBench, a comprehensive benchmark designed to evaluate the multimodal interaction capabilities of Large Multimodal Models (LMMs), which formulates each instance as a (con_v , con_t, task) triplet with contexts from vision and text, necessitating that LMMs employ correct forms of multimodal interaction to effectively complete the task. MIBench assesses models from three key aspects: the ability to source information from vision-centric or text-centric cues, and the ability to generate new information from their joint synergy. Each interaction capability is evaluated hierarchically across three cognitive levels: Recognition, Understanding, and Reasoning. MIBench comprises over 10,000 vision-text context pairs spanning 32 distinct tasks. Evaluation of state-of-the-art LMMs show that: (1) LMMs' ability on multimodal interaction remains constrained, despite the scaling of model parameters and training data; (2) they are easily distracted by textual modalities when processing vision information; (3) they mostly possess a basic capacity for multimodal synergy; and (4) natively trained multimodal models show noticeable deficits in fundamental interaction ability. We expect that these observations can serve as a reference for developing LMMs with more enhanced multimodal ability in the future.

0 Citations
0 Influential
18.5 Altmetric
92.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!