MOTIF: 소량 데이터 기반, 로봇 플랫폼 간 이전이 가능한 행동 모티프 학습
MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer
비전-언어-행동(VLA) 모델은 일반적인 로봇 학습 분야에서 상당한 발전을 이루었지만, 로봇 플랫폼 간 이전(cross-embodiment transfer)은 여전히 어려운 과제입니다. 이는 로봇의 운동학적 다양성과 미세 조정(fine-tuning)을 지원할 수 있는 충분한 실제 데이터 수집의 높은 비용 때문입니다. 기존의 로봇 플랫폼 간 이전 정책은 일반적으로 공유-개인(shared-private) 아키텍처에 의존하는데, 이는 개인 파라미터의 제한된 용량과 명시적인 적응 메커니즘의 부족으로 인해 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 우리는 효율적인 소량 데이터 기반 로봇 플랫폼 간 이전(few-shot cross-embodiment transfer)을 위한 MOTIF를 제안합니다. MOTIF는 로봇 플랫폼에 독립적인 시공간 패턴, 즉 '행동 모티프(action motifs)'를 다양한 행동 데이터로부터 분리합니다. 구체적으로, MOTIF는 진행 상황에 대한 인지 및 로봇 플랫폼 적대적 제약 조건을 활용한 벡터 양자화를 통해 일관된 모티프를 학습합니다. 그런 다음, MOTIF는 이러한 모티프를 실시간 입력으로부터 예측하는 경량 예측기를 설계하여, 이를 로봇 플랫폼별 상태와 결합하여 새로운 로봇 플랫폼에서 행동을 생성하도록 안내하는 '플로우 매칭(flow-matching)' 정책을 사용합니다. 시뮬레이션 및 실제 환경에서의 평가 결과, MOTIF는 강력한 기존 방법보다 우수한 성능을 보이며, 특히 시뮬레이션 환경에서 6.5%, 실제 환경에서 43.7%의 성능 향상을 보였습니다. 코드: https://github.com/buduz/MOTIF
While vision-language-action (VLA) models have advanced generalist robotic learning, cross-embodiment transfer remains challenging due to kinematic heterogeneity and the high cost of collecting sufficient real-world demonstrations to support fine-tuning. Existing cross-embodiment policies typically rely on shared-private architectures, which suffer from limited capacity of private parameters and lack explicit adaptation mechanisms. To address these limitations, we introduce MOTIF for efficient few-shot cross-embodiment transfer that decouples embodiment-agnostic spatiotemporal patterns, termed action motifs, from heterogeneous action data. Specifically, MOTIF first learns unified motifs via vector quantization with progress-aware alignment and embodiment adversarial constraints to ensure temporal and cross-embodiment consistency. We then design a lightweight predictor that predicts these motifs from real-time inputs to guide a flow-matching policy, fusing them with robot-specific states to enable action generation on new embodiments. Evaluations across both simulation and real-world environments validate the superiority of MOTIF, which significantly outperforms strong baselines in few-shot transfer scenarios by 6.5% in simulation and 43.7% in real-world settings. Code is available at https://github.com/buduz/MOTIF.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.