RADAR: MLLM 사전 학습 시 능력의 비대칭적 발현을 분석하는 방법
RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training
사전 학습된 다중 모드 대규모 언어 모델(MLLM)은 고유한 인지 및 추론 능력을 활용하여 복잡한 작업을 해결함으로써, 추가 학습을 위한 풍부한 지식 기반을 제공합니다. 그러나 효율적인 평가 프레임워크의 부족은 이러한 모델의 성능 병목 현상을 진단하는 데 어려움을 초래합니다. 현재 평가는 주로 지도 학습 후 테스트에 의존하며, 이는 추가적인 노동 집약적인 학습과 오토 회귀 디코딩 비용을 발생시킵니다. 또한, 일반적인 사전 학습 측정 지표는 모델의 인지 및 추론 능력을 분리하여 정량화하기 어렵습니다. 더욱이, 기존의 평가 벤치마크는 일반적으로 규모가 제한적이거나 사전 학습 목표와 일치하지 않는 경우가 많습니다. 이에, 우리는 MLLM 사전 학습에서 능력의 비대칭적 발현을 분석하는 효율적인 능력 중심 평가 프레임워크인 RADAR을 제안합니다. RADAR은 두 가지 주요 구성 요소로 구성됩니다. (1) Soft Discrimination Score: 정교한 모델의 선호도를 측정하여 미세 조정 없이 능력 발달을 강력하게 추적하는 새로운 지표입니다. (2) Multi-Modal Mixture Benchmark: 사전 학습된 MLLM의 인지 및 추론 능력을 0-샷 방식으로 종합적으로 평가하기 위한 새로운 15,000개 이상의 샘플로 구성된 벤치마크입니다. 여기에는 권위 있는 벤치마크 데이터 세트를 통합하고, 평가 범위를 확장하고 현재 벤치마크의 중요한 격차를 해소하기 위해 신규 데이터 세트를 신중하게 수집했습니다. RADAR을 통해 데이터 양, 모델 크기 및 사전 학습 전략을 포함한 다양한 요인에 따른 사전 학습된 MLLM의 인지 및 추론 능력의 비대칭적 발달을 종합적으로 분석합니다. RADAR은 사전 학습 능력 병목 현상에 대한 분산된 관점을 강조하며, MLLM을 효율적으로 발전시키기 위한 표적적인 개입을 위한 정보를 제공합니다. 저희의 코드는 다음 링크에서 공개적으로 이용할 수 있습니다: https://github.com/Nieysh/RADAR.
Pre-trained Multi-modal Large Language Models (MLLMs) provide a knowledge-rich foundation for post-training by leveraging their inherent perception and reasoning capabilities to solve complex tasks. However, the lack of an efficient evaluation framework impedes the diagnosis of their performance bottlenecks. Current evaluation primarily relies on testing after supervised fine-tuning, which introduces laborious additional training and autoregressive decoding costs. Meanwhile, common pre-training metrics cannot quantify a model's perception and reasoning abilities in a disentangled manner. Furthermore, existing evaluation benchmarks are typically limited in scale or misaligned with pre-training objectives. Thus, we propose RADAR, an efficient ability-centric evaluation framework for Revealing Asymmetric Development of Abilities in MLLM pRe-training. RADAR involves two key components: (1) Soft Discrimination Score, a novel metric for robustly tracking ability development without fine-tuning, based on quantifying nuanced gradations of the model preference for the correct answer over distractors; and (2) Multi-Modal Mixture Benchmark, a new 15K+ sample benchmark for comprehensively evaluating pre-trained MLLMs' perception and reasoning abilities in a 0-shot manner, where we unify authoritative benchmark datasets and carefully collect new datasets, extending the evaluation scope and addressing the critical gaps in current benchmarks. With RADAR, we comprehensively reveal the asymmetric development of perceptual and reasoning capabilities in pretrained MLLMs across diverse factors, including data volume, model size, and pretraining strategy. Our RADAR underscores the need for a decomposed perspective on pre-training ability bottlenecks, informing targeted interventions to advance MLLMs efficiently. Our code is publicly available at https://github.com/Nieysh/RADAR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.