기본 세계 모델 기반의 정확한 양손 조작기 오류 감지
Foundational World Models Accurately Detect Bimanual Manipulator Failures
시각-운동 로봇을 대규모로 활용하는 데는 잠재적인 이상 현상으로 인해 성능 저하, 손상 또는 인명 피해가 발생할 수 있다는 문제가 있습니다. 양손 조작기도 예외는 아니며, 이 로봇들은 고차원 이미지와 고유 인식 신호로 구성된 방대한 상태 공간을 가지고 있습니다. 이러한 상태 공간 내에서 명시적으로 오류 모드를 정의하는 것은 불가능합니다. 본 연구에서는 사전 훈련된 비전 기반 모델(NVIDIA의 Cosmos Tokenizer)의 압축된 잠재 공간 내에서 확률적이고 과거 정보를 활용하는 세계 모델을 학습하여 이러한 문제점을 해결합니다. 이 모델은 예측과 함께 불확실성 추정치를 출력하며, 이는 컨포멀 예측 프레임워크 내에서 비정상성 점수로 작용합니다. 이러한 점수를 사용하여 런타임 모니터를 개발하고, 높은 불확실성 기간을 이상 현상으로 인한 오류와 연관시킵니다. 제안된 방법의 성능을 평가하기 위해 시뮬레이션 환경인 Push-T 환경과 자체적으로 구축한 양손 케이블 조작 데이터셋을 사용했습니다. 이 새로운 데이터셋은 여러 개의 동기화된 카메라 뷰, 고유 인식 신호 및 어려운 데이터 센터 유지 보수 작업에서 발생한 오류에 대한 주석을 포함합니다. 제안하는 방법은 이상 탐지 및 분산 탐지 분야의 기존 방법과 비교하여 우수한 성능을 보이며, 통계적 기법보다 훨씬 뛰어난 성능을 나타냅니다. 또한, 제안하는 방법은 차세대 학습 기반 방법보다 약 20분의 1 수준의 학습 가능한 파라미터를 사용하면서도 오류 탐지율 측면에서 3.8% 더 높은 성능을 보여주므로, 신뢰성이 중요한 실제 환경에서 조작기 로봇을 안전하게 배치하는 데 기여할 수 있습니다.
Deploying visuomotor robots at scale is challenging due to the potential for anomalous failures to degrade performance, cause damage, or endanger human life. Bimanual manipulators are no exception; these robots have vast state spaces comprised of high-dimensional images and proprioceptive signals. Explicitly defining failure modes within such state spaces is infeasible. In this work, we overcome these challenges by training a probabilistic, history informed, world model within the compressed latent space of a pretrained vision foundation model (NVIDIA's Cosmos Tokenizer). The model outputs uncertainty estimates alongside its predictions that serve as non-conformity scores within a conformal prediction framework. We use these scores to develop a runtime monitor, correlating periods of high uncertainty with anomalous failures. To test these methods, we use the simulated Push-T environment and the Bimanual Cable Manipulation dataset, the latter of which we introduce in this work. This new dataset features trajectories with multiple synchronized camera views, proprioceptive signals, and annotated failures from a challenging data center maintenance task. We benchmark our methods against baselines from the anomaly detection and out-of-distribution detection literature, and show that our approach considerably outperforms statistical techniques. Furthermore, we show that our approach requires approximately one twentieth of the trainable parameters as the next-best learning-based approach, yet outperforms it by 3.8% in terms of failure detection rate, paving the way toward safely deploying manipulator robots in real-world environments where reliability is non-negotiable.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.