BiManiBench: 다중 모드 대규모 언어 모델의 양손 협응 능력을 평가하기 위한 계층적 벤치마크
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models
다중 모드 대규모 언어 모델(MLLM)은 임베디드 인공지능 분야에 큰 발전을 가져왔으며, 이를 활용하여 로봇 지능을 평가하는 것이 중요한 추세가 되었습니다. 그러나 기존 프레임워크는 대부분 단일 팔 조작에 국한되어 있으며, 무거운 냄비를 들어 올리는 것과 같은 양손 작업에 필요한 시공간적 조화를 제대로 반영하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 MLLM의 기본 공간 추론, 고수준 행동 계획, 그리고 저수준 엔드 이펙터 제어라는 세 가지 계층으로 MLLM을 평가하는 계층적 벤치마크인 BiManiBench를 소개합니다. 우리의 프레임워크는 팔의 도달 범위 및 운동학적 제약과 같은 고유한 양손 문제를 분리하여, 시각적 착각과 계획 실패를 구별합니다. 30개 이상의 최첨단 모델에 대한 분석 결과, 고수준 추론 능력은 뛰어나지만, MLLM은 여전히 양팔 공간 상에서의 정확한 위치 파악 및 제어에 어려움을 겪으며, 종종 상호 간섭 및 순서 오류가 발생합니다. 이러한 결과는 현재 패러다임이 상호 운동학적 제약에 대한 깊이 있는 이해가 부족하다는 점을 시사하며, 향후 연구는 팔 간 충돌 회피 및 미세한 시간 제어에 집중해야 함을 강조합니다.
Multimodal Large Language Models (MLLMs) have significantly advanced embodied AI, and using them to benchmark robotic intelligence has become a pivotal trend. However, existing frameworks remain predominantly confined to single-arm manipulation, failing to capture the spatio-temporal coordination required for bimanual tasks like lifting a heavy pot. To address this, we introduce BiManiBench, a hierarchical benchmark evaluating MLLMs across three tiers: fundamental spatial reasoning, high-level action planning, and low-level end-effector control. Our framework isolates unique bimanual challenges, such as arm reachability and kinematic constraints, thereby distinguishing perceptual hallucinations from planning failures. Analysis of over 30 state-of-the-art models reveals that despite high-level reasoning proficiency, MLLMs struggle with dual-arm spatial grounding and control, frequently resulting in mutual interference and sequencing errors. These findings suggest the current paradigm lacks a deep understanding of mutual kinematic constraints, highlighting the need for future research to focus on inter-arm collision-avoidance and fine-grained temporal sequencing.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.