RL-VLA$^3$: 완전 비동기 방식을 통한 강화학습 VLA 가속화
RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism
최근 시각-언어-행동(VLA) 모델이 범용 엠바디드 인텔리전스를 향한 중요한 경로로 부상했으나, 훈련 효율성이 핵심 병목이 되고 있다. RLinf와 같은 기존 강화학습(RL) 기반 훈련 프레임워크는 모델의 일반화 성능을 향상시킬 수 있지만, 여전히 동기식 실행에 의존하고 있어 환경 상호작용, 정책 생성(롤아웃), 모델 업데이트(액터) 단계에서 심각한 자원 활용 저조와 처리량 제한을 초래한다. 이러한 문제를 극복하기 위해, 본 논문에서는 최초로 환경 상호작용, 롤아웃 생성부터 액터 정책 업데이트에 이르는 전체 파이프라인을 아우르는 완전 비동기 정책 훈련 프레임워크를 제안하고 구현한다. 대규모 모델 RL의 비동기 최적화 아이디어에서 체계적으로 영감을 얻어, 본 프레임워크는 다계층 비결합(decoupled) 아키텍처를 설계한다. 여기에는 환경 상호작용 및 궤적 수집의 비동기 병렬화, 정책 생성을 위한 스트리밍 실행, 훈련 업데이트를 위한 비결합 스케줄링이 포함된다. 우리는 다양한 VLA 모델과 환경에서 본 방법의 유효성을 검증했다. LIBERO 벤치마크에서 본 프레임워크는 기존 동기식 전략 대비 최대 59.25%의 처리량 향상을 달성했다. 분리 전략을 고도화하여 최적화할 경우, 처리량은 최대 126.67%까지 증가할 수 있다. 또한 애블레이션 연구를 통해 각 비동기 구성 요소의 유효성을 검증했으며, 8개에서 256개의 GPU에 걸친 스케일링 법칙 검증을 통해 대부분의 조건에서 본 방법의 뛰어난 확장성을 입증했다.
In recent years, Vision-Language-Action (VLA) models have emerged as a crucial pathway towards general embodied intelligence, yet their training efficiency has become a key bottleneck. Although existing reinforcement learning (RL)-based training frameworks like RLinf can enhance model generalization, they still rely on synchronous execution, leading to severe resource underutilization and throughput limitations during environment interaction, policy generation (rollout), and model update phases (actor). To overcome this challenge, this paper, for the first time, proposes and implements a fully-asynchronous policy training framework encompassing the entire pipeline from environment interaction, rollout generation, to actor policy updates. Systematically drawing inspiration from asynchronous optimization ideas in large model RL, our framework designs a multi-level decoupled architecture. This includes asynchronous parallelization of environment interaction and trajectory collection, streaming execution for policy generation, and decoupled scheduling for training updates. We validated the effectiveness of our method across diverse VLA models and environments. On the LIBERO benchmark, the framework achieves throughput improvements of up to 59.25\% compared to existing synchronous strategies. When deeply optimizing separation strategies, throughput can be increased by as much as 126.67\%. We verified the effectiveness of each asynchronous component via ablation studies. Scaling law validation across 8 to 256 GPUs demonstrates our method's excellent scalability under most conditions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.