RMBench: 메모리 의존 로봇 조작 벤치마크 - 정책 설계에 대한 통찰력
RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design
최근 몇 년 동안 로봇 조작 정책은 빠르게 발전했지만, 대부분의 기존 접근 방식은 메모리 기능에 대한 고려가 제한적입니다. 그 결과, 과거 관찰에 대한 추론이 필요하거나 시간이 지남에 따라 작업 관련 정보를 유지해야 하는 작업을 해결하는 데 어려움을 겪으며, 이는 실제 로봇 조작 시나리오에서 흔히 요구되는 기능입니다. 몇몇 메모리를 활용하는 정책이 제안되었지만, 메모리 의존 조작에 대한 체계적인 평가는 아직 충분히 이루어지지 않았으며, 아키텍처 설계 선택과 메모리 성능 간의 관계는 아직 명확하게 이해되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 9가지 조작 작업으로 구성된 시뮬레이션 벤치마크인 RMBench를 소개합니다. RMBench는 다양한 수준의 메모리 복잡성을 포괄하며, 정책의 메모리 기능을 체계적으로 평가할 수 있도록 합니다. 또한, 우리는 명시적인 메모리 구성 요소를 갖춘 모듈식 조작 정책인 Mem-0을 제안하여, 통제된 제거 연구를 지원합니다. 광범위한 시뮬레이션 및 실제 실험을 통해, 기존 정책의 메모리 관련 제한 사항을 파악하고, 아키텍처 설계 선택이 메모리 성능에 미치는 영향에 대한 실증적인 통찰력을 제공합니다. 웹사이트는 https://rmbench.github.io/ 에서 확인할 수 있습니다.
Robotic manipulation policies have made rapid progress in recent years, yet most existing approaches give limited consideration to memory capabilities. Consequently, they struggle to solve tasks that require reasoning over historical observations and maintaining task-relevant information over time, which are common requirements in real-world manipulation scenarios. Although several memory-aware policies have been proposed, systematic evaluation of memory-dependent manipulation remains underexplored, and the relationship between architectural design choices and memory performance is still not well understood. To address this gap, we introduce RMBench, a simulation benchmark comprising 9 manipulation tasks that span multiple levels of memory complexity, enabling systematic evaluation of policy memory capabilities. We further propose Mem-0, a modular manipulation policy with explicit memory components designed to support controlled ablation studies. Through extensive simulation and real-world experiments, we identify memory-related limitations in existing policies and provide empirical insights into how architectural design choices influence memory performance. The website is available at https://rmbench.github.io/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.