2604.11674v1 Apr 13, 2026 cs.RO

AffordSim: 어포던스 기반 로봇 조작을 위한 확장 가능한 데이터 생성기 및 벤치마크

AffordSim: A Scalable Data Generator and Benchmark for Affordance-Aware Robotic Manipulation

Mingyang Li
Mingyang Li
Citations: 2
h-index: 1
Xinzhe Chen
Xinzhe Chen
Citations: 2
h-index: 1
Liqiu Huang
Liqiu Huang
Citations: 195
h-index: 7
Xi Sui
Xi Sui
Citations: 1
h-index: 1
Chenyang Miao
Chenyang Miao
Citations: 20
h-index: 2
Qiongjie Cui
Qiongjie Cui
Citations: 11
h-index: 2
Xuguang Lan
Xuguang Lan
Citations: 90
h-index: 6
Hao Xu
Hao Xu
Citations: 2
h-index: 1
Haowen Sun
Haowen Sun
Citations: 25
h-index: 2
Sihua Ren
Sihua Ren
Citations: 30
h-index: 2
Zeyang Liu
Zeyang Liu
Citations: 44
h-index: 4
Xingyu Chen
Xingyu Chen
Citations: 315
h-index: 10

시뮬레이션 기반 데이터 생성은 로봇 조작 정책 학습의 주류 패러다임이 되었지만, 기존 플랫폼은 경로 생성 과정에서 객체의 어포던스(affordance, 사용 가능성) 정보를 통합하지 못합니다. 그 결과, 특정 기능 영역과의 정밀한 상호 작용을 요구하는 작업(예: 손잡이를 사용하여 컵을 잡거나, 컵의 가장자리에서 액체를 따르거나, 컵을 고리에 걸기)은 의미적으로 정확한 경로를 자동으로 생성하기 어렵습니다. 본 연구에서는 개방형 어휘 기반 3D 어포던스 예측을 조작 데이터 생성 파이프라인에 통합한 최초의 시뮬레이션 프레임워크인 AffordSim을 소개합니다. AffordSim은 다중 스케일의 기하학적 특징을 사용하여 MLLM(Large Multimodal Language Model)의 출력 토큰을 향상시키는 개방형 어휘 기반 3D 어포던스 감지기인 VoxAfford 모델을 사용하여 객체 포인트 클라우드에 대한 어포던스 맵을 예측하고, 이를 통해 작업과 관련된 기능 영역으로 그립 자세 추정 방향을 안내합니다. NVIDIA Isaac Sim을 기반으로 하며, Franka FR3, Panda, UR5e, Kinova와 같은 다양한 로봇 플랫폼을 지원하고, VLM(Vision-Language Model) 기반의 작업 생성 기능과 실제 사진에서 추출한 DA3 기반 3D 가우시안 재구성을 활용한 새로운 도메인 랜덤화 기능을 제공하는 AffordSim은 어포던스 기반 로봇 조작 데이터를 자동화하고 확장 가능하게 생성할 수 있습니다. 본 연구에서는 7개의 범주(잡기, 놓기, 쌓기, 밀기/당기기, 따르기, 컵 걸기, 장거리 복합 작업)에 걸쳐 50개의 작업을 포함하는 벤치마크를 구축하고, 4가지 모방 학습 기준(BC, Diffusion Policy, ACT, Pi 0.5)을 평가했습니다. 실험 결과, 잡기 작업은 대체로 해결된 것으로 나타났지만(53-93% 성공률), 좁은 용기에 액체를 따르기(1-43%) 및 컵 걸기(0-47%)와 같은 어포던스를 요구하는 작업은 현재의 모방 학습 방법에 대해 여전히 훨씬 더 어려운 것으로 나타났으며, 이는 어포던스 기반 데이터 생성의 필요성을 강조합니다. 실제 Franka FR3 로봇을 사용한 제로샷 시뮬레이션-실제(sim-to-real) 실험을 통해 생성된 데이터의 전이 가능성을 검증했습니다.

Original Abstract

Simulation-based data generation has become a dominant paradigm for training robotic manipulation policies, yet existing platforms do not incorporate object affordance information into trajectory generation. As a result, tasks requiring precise interaction with specific functional regions--grasping a mug by its handle, pouring from a cup's rim, or hanging a mug on a hook--cannot be automatically generated with semantically correct trajectories. We introduce AffordSim, the first simulation framework that integrates open-vocabulary 3D affordance prediction into the manipulation data generation pipeline. AffordSim uses our VoxAfford model, an open-vocabulary 3D affordance detector that enhances MLLM output tokens with multi-scale geometric features, to predict affordance maps on object point clouds, guiding grasp pose estimation toward task-relevant functional regions. Built on NVIDIA Isaac Sim with cross-embodiment support (Franka FR3, Panda, UR5e, Kinova), VLM-powered task generation, and novel domain randomization using DA3-based 3D Gaussian reconstruction from real photographs, AffordSim enables automated, scalable generation of affordance-aware manipulation data. We establish a benchmark of 50 tasks across 7 categories (grasping, placing, stacking, pushing/pulling, pouring, mug hanging, long-horizon composite) and evaluate 4 imitation learning baselines (BC, Diffusion Policy, ACT, Pi 0.5). Our results reveal that while grasping is largely solved (53-93% success), affordance-demanding tasks such as pouring into narrow containers (1-43%) and mug hanging (0-47%) remain significantly more challenging for current imitation learning methods, highlighting the need for affordance-aware data generation. Zero-shot sim-to-real experiments on a real Franka FR3 validate the transferability of the generated data.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!