AtomicVLA: 로봇의 원자적 기술 학습 잠재력을 활용하는 방법
AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots
최근의 시각-언어-행동(VLA) 모델은 로봇 조작 작업에서 상당한 잠재력을 보여주었습니다. 그러나 실제 로봇 작업은 종종 장기적인, 다단계 문제 해결을 포함하며, 지속적인 기술 습득을 위해 단일 동작이나 기술을 넘어 일반화가 필요합니다. 이러한 과제는 기존 VLA 모델에 상당한 장벽을 제시하며, 이는 집계된 데이터로 훈련된 단일 액션 디코더를 사용하므로 확장성이 떨어집니다. 이러한 문제점을 해결하기 위해, 우리는 작업 수준 계획, 원자적 기술 추상화 및 세분화된 동작을 동시에 생성하는 통합 계획-실행 프레임워크인 AtomicVLA를 제안합니다. AtomicVLA는 Skill-Guided Mixture-of-Experts (SG-MoE)를 통해 확장 가능한 원자적 기술 라이브러리를 구축하며, 각 전문가가 일반적이면서도 정확한 원자적 기술을 마스터하는 데 특화되어 있습니다. 또한, 우리는 새로운 기술에 전용 원자적 전문가를 자동으로 할당하는 유연한 라우팅 인코더를 도입하여 지속적인 학습을 가능하게 합니다. 저희는 광범위한 실험을 통해 저희 접근 방식의 유효성을 검증했습니다. 시뮬레이션 환경에서, AtomicVLA는 LIBERO 데이터셋에서 $π_{0}$보다 2.4% 더 우수하고, LIBERO-LONG 데이터셋에서 10% 더 우수하며, CALVIN 데이터셋에서 평균 작업 길이 측면에서 $π_{0}$ 및 $π_{0.5}$보다 각각 0.22 및 0.25 더 우수합니다. 또한, 저희의 AtomicVLA는 실제 환경의 장기적인 작업 및 지속적인 학습에서 기준 모델보다 각각 18.3% 및 21% 더 우수한 성능을 보였습니다. 이러한 결과는 장기적인 로봇 작업 및 평생 학습에 있어 원자적 기술 추상화 및 동적 전문가 조합의 효과를 강조합니다. 프로젝트 페이지는 [https://zhanglk9.github.io/atomicvla-web/](https://zhanglk9.github.io/atomicvla-web/) 입니다.
Recent advances in Visual-Language-Action (VLA) models have shown promising potential for robotic manipulation tasks. However, real-world robotic tasks often involve long-horizon, multi-step problem-solving and require generalization for continual skill acquisition, extending beyond single actions or skills. These challenges present significant barriers for existing VLA models, which use monolithic action decoders trained on aggregated data, resulting in poor scalability. To address these challenges, we propose AtomicVLA, a unified planning-and-execution framework that jointly generates task-level plans, atomic skill abstractions, and fine-grained actions. AtomicVLA constructs a scalable atomic skill library through a Skill-Guided Mixture-of-Experts (SG-MoE), where each expert specializes in mastering generic yet precise atomic skills. Furthermore, we introduce a flexible routing encoder that automatically assigns dedicated atomic experts to new skills, enabling continual learning. We validate our approach through extensive experiments. In simulation, AtomicVLA outperforms $π_{0}$ by 2.4\% on LIBERO, 10\% on LIBERO-LONG, and outperforms $π_{0}$ and $π_{0.5}$ by 0.22 and 0.25 in average task length on CALVIN. Additionally, our AtomicVLA consistently surpasses baselines by 18.3\% and 21\% in real-world long-horizon tasks and continual learning. These results highlight the effectiveness of atomic skill abstraction and dynamic expert composition for long-horizon and lifelong robotic tasks. The project page is \href{https://zhanglk9.github.io/atomicvla-web/}{here}.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.