AffordGen: 어포던스 대응을 활용한 일반화 가능한 객체 조작을 위한 다양한 시연 생성
AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence
최근 로봇 조작 분야에서 뛰어난 성과를 거두고 있는 모방 학습 방법들이 지리적 변형으로 인한 제한적인 데이터 다양성 때문에 성능이 제한되는 경우가 많습니다. 본 논문에서는 강력한 3차원 생성 모델과 비전 기반 모델(VFMs)을 활용하여 AffordGen 프레임워크를 제안합니다. AffordGen은 대규모 3차원 메시 데이터에서 의미 있는 주요 지점 간의 의미론적 대응 관계를 활용하여 새로운 로봇 조작 경로를 생성함으로써 이러한 한계를 극복합니다. 이렇게 생성된 대규모의 어포던스 기반 데이터셋은 견고하고 폐쇄 루프의 시각-운동 정책을 훈련하는 데 사용되며, 이를 통해 어포던스의 의미론적 일반화 능력과 엔드 투 엔드 학습의 반응적 강건성을 결합합니다. 시뮬레이션 및 실제 환경에서의 실험 결과는 AffordGen으로 훈련된 정책이 높은 성공률을 달성하며, 실제로 보지 못한 객체에 대한 제로샷 일반화가 가능하여 로봇 학습의 데이터 효율성을 크게 향상시킴을 보여줍니다.
Despite the recent success of modern imitation learning methods in robot manipulation, their performance is often constrained by geometric variations due to limited data diversity. Leveraging powerful 3D generative models and vision foundation models (VFMs), the proposed AffordGen framework overcomes this limitation by utilizing the semantic correspondence of meaningful keypoints across large-scale 3D meshes to generate new robot manipulation trajectories. This large-scale, affordance-aware dataset is then used to train a robust, closed-loop visuomotor policy, combining the semantic generalizability of affordances with the reactive robustness of end-to-end learning. Experiments in simulation and the real world show that policies trained with AffordGen achieve high success rates and enable zero-shot generalization to truly unseen objects, significantly improving data efficiency in robot learning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.