2601.11421v1 Jan 16, 2026 cs.RO

그레이트 마ર્ચ 100: 내재적 인공지능 에이전트 평가를 위한 100가지 세부적인 과제

The Great March 100: 100 Detail-oriented Tasks for Evaluating Embodied AI Agents

Ran Cheng
Ran Cheng
Citations: 23
h-index: 3
Qian Zhu
Qian Zhu
Citations: 10
h-index: 2
Hongliang Lu
Hongliang Lu
Citations: 5
h-index: 2
Ziyu Wang
Ziyu Wang
Citations: 5
h-index: 1
Chenyu Liu
Chenyu Liu
Citations: 28
h-index: 2
Yu Xiang
Yu Xiang
Citations: 736
h-index: 4
Runhao Zhang
Runhao Zhang
Citations: 31
h-index: 3
Qingbo Hao
Qingbo Hao
Citations: 104
h-index: 6
Houyu Chen
Houyu Chen
Citations: 0
h-index: 0
Zhizhong Feng
Zhizhong Feng
Citations: 0
h-index: 0
Kaiyu Zheng
Kaiyu Zheng
Citations: 324
h-index: 9
Dehao Ye
Dehao Ye
Citations: 0
h-index: 0
Xianchao Zeng
Xianchao Zeng
Citations: 4
h-index: 1
Xinyu Zhou
Xinyu Zhou
Citations: 0
h-index: 0
Boran Wen
Boran Wen
Citations: 13
h-index: 3
Jiaxin Li
Jiaxin Li
Citations: 25
h-index: 2
Mingyu Zhang
Mingyu Zhang
Citations: 9
h-index: 1
Kecheng Zheng
Kecheng Zheng
Citations: 148
h-index: 2
Yong-Lu Li
Yong-Lu Li
Citations: 5
h-index: 1

최근 로봇 학습 및 모방 학습의 급속한 발전으로 인해 수많은 데이터셋과 방법론이 등장했습니다. 그러나 이러한 데이터셋과 과제 설계는 종종 체계적인 고려와 원칙이 부족합니다. 이는 다음과 같은 중요한 질문을 제기합니다. 현재의 데이터셋과 과제 설계가 실제로 로봇 에이전트의 능력을 향상시키는가? 몇 가지 일반적인 과제에 대한 평가는 다양한 팀에서 제안하고, 서로 다른 과제에서 평가된 다양한 방법의 차별화된 성능을 정확하게 반영하는가? 이러한 문제점을 해결하기 위해, 우리는 로봇 학습 올림픽을 향한 첫 번째 단계로 '그레이트 마ર્ચ 100 (GM-100)'을 소개합니다. GM-100은 광범위한 상호작용과 롱테일 행동을 포괄하는 100가지의 신중하게 설계된 과제로 구성되어 있으며, 로봇 에이전트의 능력을 종합적으로 평가하고 로봇 데이터셋의 과제 설계에 다양성과 복잡성을 촉진하는 것을 목표로 합니다. 이러한 과제는 기존 과제 설계의 체계적인 분석 및 확장에 더하여, 인간-객체 상호작용의 기본 원리와 객체의 활용 가능성을 고려하여 개발되었습니다. 우리는 다양한 로봇 플랫폼에서 대량의 경로 데이터를 수집하고, 여러 개의 기본 모델을 평가했습니다. 실험 결과는 GM-100 과제가 1) 실행 가능하며, 2) 현재의 대규모 로봇 학습 모델의 성능을 효과적으로 차별화할 수 있을 만큼 충분히 도전적인 과제라는 것을 보여줍니다. 저희의 데이터와 코드는 https://rhos.ai/research/gm-100 에서 이용하실 수 있습니다.

Original Abstract

Recently, with the rapid development of robot learning and imitation learning, numerous datasets and methods have emerged. However, these datasets and their task designs often lack systematic consideration and principles. This raises important questions: Do the current datasets and task designs truly advance the capabilities of robotic agents? Do evaluations on a few common tasks accurately reflect the differentiated performance of various methods proposed by different teams and evaluated on different tasks? To address these issues, we introduce the Great March 100 (\textbf{GM-100}) as the first step towards a robot learning Olympics. GM-100 consists of 100 carefully designed tasks that cover a wide range of interactions and long-tail behaviors, aiming to provide a diverse and challenging set of tasks to comprehensively evaluate the capabilities of robotic agents and promote diversity and complexity in robot dataset task designs. These tasks are developed through systematic analysis and expansion of existing task designs, combined with insights from human-object interaction primitives and object affordances. We collect a large amount of trajectory data on different robotic platforms and evaluate several baseline models. Experimental results demonstrate that the GM-100 tasks are 1) feasible to execute and 2) sufficiently challenging to effectively differentiate the performance of current VLA models. Our data and code are available at https://rhos.ai/research/gm-100.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!