ALOE: 비전-언어-행동 모델의 사후 훈련을 위한 액션 레벨 오프라인 평가
ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training
본 연구는 실제 환경에서 온라인 강화 학습(RL)을 통해 대규모 비전-언어-행동(VLA) 시스템을 개선하는 방법을 탐구합니다. 이 과정의 핵심은 가치 함수이며, 이는 VLA 학습을 경험으로부터 유도하는 학습 신호를 제공합니다. 실제로 가치 함수는 과거 정책 및 간헐적인 인간 개입을 포함한 다양한 데이터 소스로부터 수집된 경로 조각에서 추정됩니다. 현재 행동의 품질에 대한 가치 함수를 이러한 혼합 데이터로부터 추정하는 것은 본질적으로 오프라인 평가 문제입니다. 그러나 기존 연구에서는 종종 안정성을 위해 보수적인 온라인 추정 방식을 채택하여 현재의 고용량 정책을 직접 평가하지 않고 학습 효과를 제한합니다. 본 논문에서는 VLA 사후 훈련을 위한 액션 레벨 오프라인 평가 프레임워크인 ALOE를 제안합니다. ALOE는 개별 액션 시퀀스를 평가하기 위해 청킹 기반의 템포럴 디퍼런스 부트스트래핑을 적용하여 최종 작업 결과를 예측하는 대신, 희소 보상이 존재하는 환경에서 중요한 액션 조각에 대한 효과적인 보상 할당을 개선하고 안정적인 정책 개선을 지원합니다. 우리는 스마트폰 포장(고정밀 작업), 세탁물 접기(장기 지향성 변형 객체 작업) 및 다중 객체 인식을 포함하는 양손 조작 작업 등 세 가지 실제 조작 작업에서 ALOE를 평가했습니다. 모든 작업에서 ALOE는 실행 속도를 저하시키지 않고 학습 효율성을 향상시켜, 오프라인 RL이 실제 VLA 사후 훈련에 안정적으로 재도입될 수 있음을 보여줍니다. 비디오 및 추가 자료는 프로젝트 웹사이트에서 확인할 수 있습니다.
We study how to improve large foundation vision-language-action (VLA) systems through online reinforcement learning (RL) in real-world settings. Central to this process is the value function, which provides learning signals to guide VLA learning from experience. In practice, the value function is estimated from trajectory fragments collected from different data sources, including historical policies and intermittent human interventions. Estimating the value function of current behavior quality from the mixture data is inherently an off-policy evaluation problem. However, prior work often adopts conservative on-policy estimation for stability, which avoids direct evaluation of the current high-capacity policy and limits learning effectiveness. In this paper, we propose ALOE, an action-level off-policy evaluation framework for VLA post-training. ALOE applies chunking-based temporal-difference bootstrapping to evaluate individual action sequences instead of predicting final task outcomes. This design improves effective credit assignment to critical action chunks under sparse rewards and supports stable policy improvement. We evaluate our method on three real-world manipulation tasks, including smartphone packing as a high-precision task, laundry folding as a long-horizon deformable-object task, and bimanual pick-and-place involving multi-object perception. Across all tasks, ALOE improves learning efficiency without compromising execution speed, showing that off-policy RL can be reintroduced in a reliable manner for real-world VLA post-training. Videos and additional materials are available at our project website.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.