텍스트와 이미지로 생각하기: 장기 로봇 조작을 위한 텍스트-이미지 결합 추론 모델
Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation
장기 로봇 조작은 논리적으로 일관되고 기하학적으로 정확한 계획을 요구합니다. 기존의 시각-언어-행동 정책은 일반적으로 계획 과정을 잠재 상태에 숨기거나 하나의 모달리티만 사용합니다. 텍스트 기반의 연쇄적 사고는 인과 관계를 표현하지만 공간적 제약 조건을 놓칠 수 있으며, 시각적 예측은 기하학적 정보를 제공하지만 종종 지역적이고 의미적으로 불충분합니다. 본 연구에서는 텍스트-이미지 결합 추론(IVLR)이라는 정책 프레임워크를 제안합니다. 이는 race{}라는 명시적인 중간 표현을 기반으로 하며, 전체 작업 범위에 걸쳐 텍스트 하위 목표와 시각적 주요 프레임을 번갈아 사용합니다. 테스트 시, 단일 멀티모달 트랜스포머는 초기 관찰 및 지침에서 이 글로벌 의미-기하학적 추론 과정을 자체적으로 생성하고, 이를 캐싱한 후, 원래 지침과 현재 관찰, 그리고 추론 과정에 기반하여 폐루프 액션 디코더를 작동시킵니다. 표준 로봇 데이터셋에 이러한 추론 과정이 존재하지 않으므로, 시연 데이터를 시간적으로 분할하고, 비전-언어 모델을 사용하여 각 단계를 설명하는 방식으로 가짜 감독 학습을 수행합니다. 시뮬레이션 환경에서 장기 조작 및 시각적 분포 변화에 대한 벤치마크 테스트에서, 제안하는 방법은 LIBERO에서 95.5%의 평균 성공률을 달성했으며, 특히 LIBERO-Long에서 92.4%의 성공률을 보였습니다. 또한 SimplerEnv-WidowX 환경에서 59.4%의 전체 성공률을 기록했습니다. 추가 분석 결과, 두 모달리티 모두 필수적인 것으로 나타났습니다. 추론 과정이 없을 경우, LIBERO-Long의 성공률은 37.7%로 감소했습니다. 텍스트만 사용한 추론 과정은 62.0%의 성공률을, 시각 정보만 사용한 추론 과정은 68.4%의 성공률을 보인 반면, 전체 결합된 추론 과정은 92.4%의 성공률을 달성했습니다. 실행 과정에 인위적인 오류를 추가하거나 추론 과정의 일부를 가려 실험한 결과, 추론 과정은 어느 정도의 오류를 견딜 수 있지만, 오래되거나 부정확한 글로벌 계획에서는 성능이 제한될 수 있다는 것을 확인했습니다.
Long-horizon robotic manipulation requires plans that are both logically coherent and geometrically grounded. Existing Vision-Language-Action policies usually hide planning in latent states or expose only one modality: text-only chain-of-thought encodes causal order but misses spatial constraints, while visual prediction provides geometric cues but often remains local and semantically underconstrained. We introduce Interleaved Vision--Language Reasoning (IVLR), a policy framework built around \trace{}, an explicit intermediate representation that alternates textual subgoals with visual keyframes over the full task horizon. At test time, a single native multimodal transformer self-generates this global semantic-geometric trace from the initial observation and instruction, caches it, and conditions a closed-loop action decoder on the trace, original instruction, and current observation. Because standard robot datasets lack such traces, we construct pseudo-supervision by temporally segmenting demonstrations and captioning each stage with a vision-language model. Across simulated benchmarks for long-horizon manipulation and visual distribution shift, \method{} reaches 95.5\% average success on LIBERO, including 92.4\% on LIBERO-Long, and 59.4\% overall success on SimplerEnv-WidowX. Ablations show that both modalities are necessary: without traces, LIBERO-Long success drops to 37.7\%; text-only and vision-only traces reach 62.0\% and 68.4\%, while the full interleaved trace reaches 92.4\%. Stress tests with execution perturbations and masked trace content show moderate degradation, suggesting that the trace can tolerate local corruption and moderate execution drift, but remains limited under stale or incorrect global plans.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.