V-CAGE: 상황 인지 기반 생성 및 검증을 통한 확장 가능한 장기 지향형 로봇 작업
V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks
합성 데이터를 활용하여 장기적인 로봇 행동을 학습하는 것은 여전히 어려운 과제입니다. 생성된 장면들이 종종 물리적으로 불가능하며, 언어 기반 프로그램들이 종종 실제 목표를 만족시키지 못하면서도 성공으로 기록되는 경우가 있고, 고수준 명령은 실행 가능한 동작 시퀀스로 변환되어야 하기 때문입니다. 이러한 한계점을 해결하기 위해, 우리는 견고하고 의미적으로 일관된 조작 데이터셋을 대규모로 생성할 수 있는 폐쇄 루프 프레임워크인 V-CAGE를 제안합니다. 첫째, 우리는 장면 생성 과정에서 기하학적 일관성을 유지하는 상황 인지 기반 생성 메커니즘을 제안합니다. 객체를 배치할 때 금지된 공간 영역의 지도를 동적으로 관리함으로써, 시스템은 객체 간의 충돌을 방지하고, 복잡한 환경에서 접근 가능하고 충돌 없는 구성을 보장합니다. 둘째, 추상적인 의도와 저수준 제어 사이의 간극을 줄이기 위해, 우리는 계층적 명령 분해 모듈을 사용합니다. 이 모듈은 고수준 목표(예: "출근 준비")를 작용 단위로 분해하여 일관성 있는 장기 계획을 수립하는 것을 돕습니다. 더욱 중요한 점은, VLM(Visual Language Model) 기반의 검증 루프를 통해 의미적 정확성을 보장합니다. 시각적 비평가 역할을 하는 VLM은 각 하위 작업이 완료된 후 엄격한 샘플링을 수행하여, 코드는 실행되지만 시각적 목표를 달성하지 못하는 "숨겨진 실패"를 제거합니다. 실험 결과는 V-CAGE가 물리적 및 의미적 정확성이 뛰어난 데이터셋을 생성하며, 검증되지 않은 기준 모델에 비해 다운스트림 정책의 성공률과 일반화 능력을 크게 향상시킨다는 것을 보여줍니다.
Learning long-horizon embodied behaviors from synthetic data remains challenging because generated scenes are often physically implausible, language-driven programs frequently "succeed" without satisfying task semantics, and high-level instructions require grounding into executable action sequences. To address these limitations, we introduce V-CAGE, a closed-loop framework for generating robust, semantically aligned manipulation datasets at scale. First, we propose a context-aware instantiation mechanism that enforces geometric consistency during scene synthesis. By dynamically maintaining a map of prohibited spatial areas as objects are placed, our system prevents interpenetration and ensures reachable, conflict-free configurations in cluttered environments. Second, to bridge the gap between abstract intent and low-level control, we employ a hierarchical instruction decomposition module. This decomposes high-level goals (e.g., "get ready for work") into compositional action primitives, facilitating coherent long-horizon planning. Crucially, we enforce semantic correctness through a VLM-based verification loop. Acting as a visual critic, the VLM performs rigorous rejection sampling after each subtask, filtering out "silent failures" where code executes but fails to achieve the visual goal. Experiments demonstrate that V-CAGE yields datasets with superior physical and semantic fidelity, significantly boosting the success rate and generalization of downstream policies compared to non-verified baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.