다중 에이전트 협력을 위한 안전하고 해석 가능한 멀티모달 경로 계획
Safe and Interpretable Multimodal Path Planning for Multi-Agent Cooperation
분산된 에이전트 간의 성공적인 협력을 위해서는 각 에이전트가 다른 에이전트의 행동에 맞춰 자신의 계획을 빠르게 적응시켜야 한다. 에이전트들이 서로의 의도와 계획을 확실하게 예측할 수 없는 상황에서는 안전을 보장하기 위해 언어 소통이 매우 중요할 수 있다. 본 연구에서는 충돌을 피하거나 공동 운반과 같은 물리적 협업을 수행하기 위해 에이전트가 서로에게 경로를 맞춰야 하는 경로 수준의 협력에 초점을 맞춘다. 특히, 우리는 환경 및 다른 에이전트로부터의 언어 소통을 기반으로 에이전트의 경로 계획을 생성하고 업데이트하는 안전하고 해석 가능한 멀티모달 경로 계획 방법인 CaPE(Code as Path Editor)를 제안한다. CaPE는 비전-언어 모델(VLM)을 활용하여 모델 기반 플래너에 의해 검증되는 경로 편집 프로그램을 합성함으로써, 의사소통을 안전하고 해석 가능한 방식으로 경로 계획 업데이트에 연결한다. 우리는 자율 주행, 가사, 그리고 공동 운반 작업에서의 다중 로봇 및 인간-로봇 협력을 포함한 다양한 시뮬레이션 및 실제 환경 시나리오에서 우리의 접근 방식을 평가한다. 실험 결과는 CaPE가 다양한 로봇 시스템에 플러그 앤 플레이 모듈로 통합될 수 있으며, 다른 로봇이나 인간의 언어 소통에 맞춰 자신의 계획을 조정하는 로봇의 능력을 크게 향상시킨다는 것을 입증한다. 또한 우리는 VLM 기반의 경로 편집 프로그램 합성과 모델 기반 계획 안전성의 결합을 통해 로봇이 안전성과 해석 가능성을 유지하면서 개방형 협력을 달성할 수 있음을 보여준다.
Successful cooperation among decentralized agents requires each agent to quickly adapt its plan to the behavior of other agents. In scenarios where agents cannot confidently predict one another's intentions and plans, language communication can be crucial for ensuring safety. In this work, we focus on path-level cooperation in which agents must adapt their paths to one another in order to avoid collisions or perform physical collaboration such as joint carrying. In particular, we propose a safe and interpretable multimodal path planning method, CaPE (Code as Path Editor), which generates and updates path plans for an agent based on the environment and language communication from other agents. CaPE leverages a vision-language model (VLM) to synthesize a path editing program verified by a model-based planner, grounding communication to path plan updates in a safe and interpretable way. We evaluate our approach in diverse simulated and real-world scenarios, including multi-robot and human-robot cooperation in autonomous driving, household, and joint carrying tasks. Experimental results demonstrate that CaPE can be integrated into different robotic systems as a plug-and-play module, greatly enhancing a robot's ability to align its plan to language communication from other robots or humans. We also show that the combination of the VLM-based path editing program synthesis and model-based planning safety enables robots to achieve open-ended cooperation while maintaining safety and interpretability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.