MIBench: 다중 모드 상호작용을 평가하는 방법
MIBench: Evaluating LMMs on Multimodal Interaction
다양한 다중 모드 시나리오에서 모델은 특정 작업의 요구 사항에 따라 여러 모드 간의 정보를 통합하고 활용해야 합니다. 모드 간의 다양한 통합 방식을 "다중 모드 상호작용"이라고 합니다. 모델이 다양한 다중 모드 상호작용을 얼마나 잘 처리하는지는 해당 모델의 다중 모드 능력을 크게 좌우합니다. 본 논문에서는 대규모 다중 모드 모델(LMM)의 다중 모드 상호작용 능력을 평가하기 위한 포괄적인 벤치마크인 MIBench를 소개합니다. MIBench는 각 인스턴스를 시각 및 텍스트 컨텍스트를 포함하는 (시각 컨텍스트, 텍스트 컨텍스트, 작업) 3가지 요소로 구성된 튜플로 정의하며, LMM이 작업을 효과적으로 완료하기 위해서는 적절한 형태의 다중 모드 상호작용을 활용해야 합니다. MIBench는 모델의 능력을 세 가지 주요 측면에서 평가합니다. 즉, 시각 중심 또는 텍스트 중심의 단서로부터 정보를 추출하는 능력과, 모드 간의 상호 작용을 통해 새로운 정보를 생성하는 능력입니다. 각 상호작용 능력은 인지 수준에 따라 세 단계(인지, 이해, 추론)로 계층적으로 평가됩니다. MIBench는 32개의 다양한 작업에 걸쳐 10,000개 이상의 시각-텍스트 컨텍스트 쌍으로 구성되어 있습니다. 최첨단 LMM 모델에 대한 평가 결과, (1) 모델 파라미터 및 훈련 데이터의 증가에도 불구하고 LMM의 다중 모드 상호작용 능력은 여전히 제한적입니다. (2) 시각 정보를 처리할 때 텍스트 모드에 쉽게 영향을 받습니다. (3) 대부분의 모델은 기본적인 수준의 다중 모드 시너지 능력을 가지고 있습니다. (4) 기본적으로 훈련된 다중 모드 모델은 기본적인 상호작용 능력에서 상당한 결함을 보입니다. 이러한 관찰 결과는 향후 더욱 향상된 다중 모드 능력을 갖춘 LMM을 개발하는 데 중요한 참고 자료가 될 것으로 기대됩니다.
In different multimodal scenarios, it needs to integrate and utilize information across modalities in a specific way based on the demands of the task. Different integration ways between modalities are referred to as "multimodal interaction". How well a model handles various multimodal interactions largely characterizes its multimodal ability. In this paper, we introduce MIBench, a comprehensive benchmark designed to evaluate the multimodal interaction capabilities of Large Multimodal Models (LMMs), which formulates each instance as a (con_v , con_t, task) triplet with contexts from vision and text, necessitating that LMMs employ correct forms of multimodal interaction to effectively complete the task. MIBench assesses models from three key aspects: the ability to source information from vision-centric or text-centric cues, and the ability to generate new information from their joint synergy. Each interaction capability is evaluated hierarchically across three cognitive levels: Recognition, Understanding, and Reasoning. MIBench comprises over 10,000 vision-text context pairs spanning 32 distinct tasks. Evaluation of state-of-the-art LMMs show that: (1) LMMs' ability on multimodal interaction remains constrained, despite the scaling of model parameters and training data; (2) they are easily distracted by textual modalities when processing vision information; (3) they mostly possess a basic capacity for multimodal synergy; and (4) natively trained multimodal models show noticeable deficits in fundamental interaction ability. We expect that these observations can serve as a reference for developing LMMs with more enhanced multimodal ability in the future.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.