Sci-VLA: 과학 실험의 장기 과제를 위한 에이전트 기반 VLA 추론 플러그인
Sci-VLA: Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments
로봇 실험실은 확장 가능하고 지속적인 실험 수행을 가능하게 하여 자율적인 과학적 발견에 중요한 역할을 합니다. 최근의 비전-언어-행동(VLA) 모델은 로봇 실험실을 위한 유망한 기반을 제공합니다. 그러나 과학 실험은 일반적으로 여러 원자적 작업으로 구성된 장기 과제를 포함하며, 이는 기존 VLA 모델에 근본적인 과제를 제시합니다. 과학적 작업에 대해 미세 조정된 VLA 모델은 훈련 중에 볼 수 있는 원자적 실험 작업을 안정적으로 수행할 수 있지만, 종종 알려진 원자적 작업을 재정렬하고 결합하여 형성된 복합 작업을 수행하지 못합니다. 이러한 제한은 훈련 시의 원자적 작업과 추론 시의 복합 작업 간의 분포 불일치에서 비롯되며, 이는 VLA 모델이 원자적 작업 간에 필요한 전환 작업을 수행하는 것을 방지합니다. 이러한 문제를 해결하기 위해, 우리는 과학 실험의 장기 과제를 위한 에이전트 기반 VLA 추론 플러그인을 제안합니다. 이 플러그인은 순차적인 조작 작업을 수행할 때 개입하는 LLM 기반 에이전트 추론 메커니즘을 도입합니다. 제안된 플러그인은 명시적인 전환 추론을 수행하고 전환 로봇 액션 코드를 생성함으로써, VLA 모델이 누락된 전환 단계를 거치도록 안내하여 추가 훈련 없이 복합 과학 워크플로우를 안정적으로 실행할 수 있도록 합니다. 이러한 추론만으로 이루어지는 개입은 당사 방법이 계산 효율적이고 데이터 효율적이며, 개방형 및 장기 로봇 실험실 작업에 적합하도록 만듭니다. 우리는 기존 시뮬레이션 환경 내에서 과학 장비 및 일반적인 과학 작업 장면의 3D 모델을 구축했습니다. 이러한 장면에서, 당사 방법이 추론 중에 원자적 작업당 평균 성공률을 42% 증가시킨다는 것을 확인했습니다. 또한, 당사 방법이 시뮬레이션에서 실제 과학 실험실로 쉽게 이전될 수 있음을 보여줍니다.
Robotic laboratories play a critical role in autonomous scientific discovery by enabling scalable, continuous experimental execution. Recent vision-language-action (VLA) models offer a promising foundation for robotic laboratories. However, scientific experiments typically involve long-horizon tasks composed of multiple atomic tasks, posing a fundamental challenge to existing VLA models. While VLA models fine-tuned for scientific tasks can reliably execute atomic experimental actions seen during training, they often fail to perform composite tasks formed by reordering and composing these known atomic actions. This limitation arises from a distributional mismatch between training-time atomic tasks and inference-time composite tasks, which prevents VLA models from executing necessary transitional operations between atomic tasks. To address this challenge, we propose an Agentic VLA Inference Plugin for Long-Horizon Tasks in Scientific Experiments. It introduces an LLM-based agentic inference mechanism that intervenes when executing sequential manipulation tasks. By performing explicit transition inference and generating transitional robotic action code, the proposed plugin guides VLA models through missing transitional steps, enabling reliable execution of composite scientific workflows without any additional training. This inference-only intervention makes our method computationally efficient, data-efficient, and well-suited for open-ended and long-horizon robotic laboratory tasks. We build 3D assets of scientific instruments and common scientific operating scenes within an existing simulation environment. In these scenes, we have verified that our method increases the average success rate per atomic task by 42\% during inference. Furthermore, we show that our method can be easily transferred from the simulation to real scientific laboratories.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.