인간 데이터를 활용한 인간형 로봇의 내비게이션 학습
Learning Humanoid Navigation from Human Data
본 논문에서는 EgoNav라는 시스템을 소개합니다. EgoNav은 인간형 로봇이 5시간 동안 수집된 인간 보행 데이터만을 사용하여 다양한 환경에서 작동하며, 로봇 데이터를 사용하지 않거나 추가적인 조정 없이 작동합니다. 확산 모델은 과거 경로를 기반으로 가능한 미래 경로 분포를 예측하며, 360도 시각 메모리는 색상, 깊이 및 의미 정보를 융합합니다. 또한, 동결된 DINOv3 모델에서 추출한 비디오 특징은 깊이 센서로는 감지할 수 없는 시각적 정보를 포착합니다. 하이브리드 샘플링 방식을 통해 10단계의 디노이징 과정을 거쳐 실시간 추론이 가능하며, 예측된 분포에서 최적의 경로를 선택하기 위해 시프트 호라이즌 컨트롤러를 사용합니다. 오프라인 평가를 통해 EgoNav은 기존 방식보다 충돌 방지 및 다중 모드 커버리지 측면에서 우수한 성능을 보이며, Unitree G1 인간형 로봇에 탑재하여 실제 환경(실내 및 실외)에서 테스트한 결과도 긍정적이었습니다. 문이 열릴 때까지 기다리거나, 사람들 틈을 지나가거나, 유리벽을 피하는 등의 행동이 학습된 패턴으로부터 자연스럽게 나타났습니다. 데이터셋과 학습된 모델은 공개될 예정입니다. 웹사이트 주소: https://egonav.weizhuowang.com
We present EgoNav, a system that enables a humanoid robot to traverse diverse, unseen environments by learning entirely from 5 hours of human walking data, with no robot data or finetuning. A diffusion model predicts distributions of plausible future trajectories conditioned on past trajectory, a 360 deg visual memory fusing color, depth, and semantics, and video features from a frozen DINOv3 backbone that capture appearance cues invisible to depth sensors. A hybrid sampling scheme achieves real-time inference in 10 denoising steps, and a receding-horizon controller selects paths from the predicted distribution. We validate EgoNav through offline evaluations, where it outperforms baselines in collision avoidance and multi-modal coverage, and through zero-shot deployment on a Unitree G1 humanoid across unseen indoor and outdoor environments. Behaviors such as waiting for doors to open, navigating around crowds, and avoiding glass walls emerge naturally from the learned prior. We will release the dataset and trained models. Our website: https://egonav.weizhuowang.com
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.