SAIL: VLM을 활용한 컨텍스트 기반 모방 학습의 테스트 시간 스케일링
SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM
컨텍스트 기반 모방 학습은 로봇이 시연을 통해 기술을 습득하도록 하지만, 단일 시퀀스 경로 생성은 환경 변화에 취약합니다. 본 논문에서는 테스트 시간 컴퓨팅 자원을 활용하여 반복적인 개선 과정을 통해 로봇 모방을 수행하는 SAIL 프레임워크를 제안합니다. SAIL은 몬테카를로 트리 탐색을 활용하며, 각 노드는 완전한 경로를 나타내고, 에지는 경로 개선을 의미합니다. 이 과정은 세 가지 핵심 구성 요소에 의해 안내됩니다. 첫째, 컨텍스트적으로 관련된 경로를 검색하기 위한 자동화된 성공 경로 저장소입니다. 둘째, 경로 평가를 위한 비전-언어 모델 기반 점수 부여 메커니즘입니다. 셋째, 반복적인 개선을 위한 경로 정렬된 단계별 피드백입니다. 시뮬레이션 및 실제 환경에서 수행된 여섯 가지 다양한 조작 작업 실험 결과, 테스트 시간 컴퓨팅 자원을 늘리면 성공률이 꾸준히 향상되며, 복잡한 작업에서 최대 95%의 성공률을 달성했습니다. 이러한 결과는 경로 수준의 테스트 시간 스케일링이 보다 일반화된 로봇 에이전트를 개발하는 데 효과적인 방법임을 시사합니다.
In-context imitation learning allows robots to acquire skills from demonstrations, yet one-shot trajectory generation remains fragile under environmental variation. We propose SAIL, a framework that reframes robot imitation as an iterative refinement problem capable of scaling with test-time compute. SAIL utilizes Monte Carlo Tree Search, where each node is a complete trajectory and edges correspond to trajectory refinements. The process is guided by three core components: an automated archive of successful trajectories for contextually relevant retrieval, a vision language model-based scoring mechanism for trajectory evaluation, and a step-level feedback that provides trajectory-aligned scores for iterative refinement. Experiments across six diverse manipulation tasks in simulation and real-world validation clearly demonstrate that increasing test-time compute consistently improves success rates, achieving up to 95% on complex tasks. Our results suggest that trajectory-level test-time scaling is a robust path toward more generalizable robotic agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.