멀티 에이전트 인-컨텍스트 학습을 통한 양손 로봇 조작
Bimanual Robot Manipulation via Multi-Agent In-Context Learning
언어 모델(LLM)은 로봇 제어를 위한 강력한 추론 엔진으로 부상했습니다. 특히, 인-컨텍스트 학습(ICL)은 텍스트만으로 구성된 LLM이 특정 작업에 대한 추가 훈련 없이 로봇 동작을 예측하고 일반화 능력을 유지할 수 있도록 합니다. 양손 조작에 ICL을 적용하는 것은 여전히 어려운 과제입니다. 왜냐하면 고차원적인 관절 동작 공간과 긴밀한 양팔 협응 제약 조건이 표준 컨텍스트 창을 빠르게 압도하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 BiCICLe(Bimanual Coordinated In-Context Learning)을 제안합니다. BiCICLe은 표준 LLM이 파인 튜닝 없이도 소량의 예제만으로 양손 조작을 수행할 수 있도록 하는 최초의 프레임워크입니다. BiCICLe은 양손 제어를 다중 에이전트 리더-팔로워 문제로 정의하고, 동작 공간을 순차적이고 조건부인 단일 팔 예측으로 분리합니다. 이는 자연스럽게 'Arms' Debate'라는 반복적인 개선 프로세스로 확장되며, 세 번째 LLM을 '심판'으로 도입하여 가장 합리적인 협응 경로를 평가하고 선택합니다. TWIN 벤치마크의 13가지 작업에서 BiCICLe은 최대 71.1%의 평균 성공률을 달성했으며, 이는 가장 우수한 훈련 없이 작동하는 기준 모델보다 6.7% 포인트 더 높고, 대부분의 지도 학습 방법보다 우수합니다. 또한, BiCICLe은 새로운 작업에 대한 강력한 소량 예제 기반 일반화 능력을 보여줍니다.
Language Models (LLMs) have emerged as powerful reasoning engines for embodied control. In particular, In-Context Learning (ICL) enables off-the-shelf, text-only LLMs to predict robot actions without any task-specific training while preserving their generalization capabilities. Applying ICL to bimanual manipulation remains challenging, as the high-dimensional joint action space and tight inter-arm coordination constraints rapidly overwhelm standard context windows. To address this, we introduce BiCICLe (Bimanual Coordinated In-Context Learning), the first framework that enables standard LLMs to perform few-shot bimanual manipulation without fine-tuning. BiCICLe frames bimanual control as a multi-agent leader-follower problem, decoupling the action space into sequential, conditioned single-arm predictions. This naturally extends to Arms' Debate, an iterative refinement process, and to the introduction of a third LLM-as-Judge to evaluate and select the most plausible coordinated trajectories. Evaluated on 13 tasks from the TWIN benchmark, BiCICLe achieves up to 71.1% average success rate, outperforming the best training-free baseline by 6.7 percentage points and surpassing most supervised methods. We further demonstrate strong few-shot generalization on novel tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.