CARV: 다중 모달 대규모 언어 모델의 구성적 유추 능력 평가를 위한 진단 벤치마크
CARV: A Diagnostic Benchmark for Compositional Analogical Reasoning in Multimodal LLMs
유추 능력은 인간 인지 능력의 핵심 요소로서, 한 쌍의 객체 간의 관계를 다른 쌍에 매핑하는 것을 포함합니다. 기존의 다중 모달 대규모 언어 모델(MLLM)의 유추 능력 평가는 여러 출처에서 규칙을 조합하는 능력, 즉 고차적 지능의 중요한 구성 요소를 간과합니다. 이러한 격차를 해소하기 위해, 우리는 CARV(Vision에서의 구성적 유추)라는 새로운 작업을 소개하며, 이를 위한 5,500개의 샘플 데이터셋을 포함하는 최초의 진단 벤치마크를 제공합니다. 우리는 유추를 하나의 쌍에서 여러 쌍으로 확장하여, MLLM이 각 쌍에서 상징적 규칙을 추출하고 새로운 변환을 조합하도록 요구합니다. 최첨단 MLLM에 대한 평가 결과, 놀라운 성능 격차가 드러났습니다. 심지어 Gemini-2.5 Pro조차도 40.4%의 정확도를 기록했으며, 이는 인간 수준의 성능인 100%에 훨씬 못 미치는 수치입니다. 진단 분석 결과, 두 가지 일관된 실패 모드가 확인되었습니다. (1) 시각적 변화를 상징적 규칙으로 분해하는 과정에서의 어려움, (2) 다양한 또는 복잡한 환경에서의 견고성 유지의 어려움입니다. 이는 현재 MLLM이 이 작업에서 갖는 한계를 보여줍니다.
Analogical reasoning tests a fundamental aspect of human cognition: mapping the relation from one pair of objects to another. Existing evaluations of this ability in multimodal large language models (MLLMs) overlook the ability to compose rules from multiple sources, a critical component of higher-order intelligence. To close this gap, we introduce CARV (Compositional Analogical Reasoning in Vision), a novel task together with a 5,500-sample dataset as the first diagnostic benchmark. We extend the analogy from a single pair to multiple pairs, which requires MLLMs to extract symbolic rules from each pair and compose new transformations. Evaluation on the state-of-the-art MLLMs reveals a striking performance gap: even Gemini-2.5 Pro achieving only 40.4% accuracy, far below human-level performance of 100%. Diagnostic analysis shows two consistent failure modes: (1) decomposing visual changes into symbolic rules, and (2) maintaining robustness under diverse or complex settings, highlighting the limitations of current MLLMs on this task.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.