FlowHOI: 흐름 기반의 의미론적 지향 손-객체 상호작용 생성 모델을 이용한 숙련 로봇 조작
FlowHOI: Flow-based Semantics-Grounded Generation of Hand-Object Interactions for Dexterous Robot Manipulation
최근의 비전-언어-행동(VLA) 모델은 그럴듯한 엔드 이펙터 동작을 생성할 수 있지만, 종종 장기적인 시계열 작업 및 접촉이 많은 작업에서 실패합니다. 이는 손-객체 상호작용(HOI) 구조가 명시적으로 표현되지 않기 때문입니다. 로봇 간의 동작 검증 및 전이를 용이하게 하기 위해서는 이러한 구조를 포착하는 로봇 종류에 독립적인 상호작용 표현이 필요합니다. 본 논문에서는 FlowHOI를 제안합니다. FlowHOI는 두 단계로 구성된 흐름 일치 프레임워크로, 에고센트릭 관찰, 언어 지시 및 3D 가우시안 스플래팅(3DGS) 장면 재구성을 기반으로 의미론적으로 지향되고 시간적으로 일관성 있는 HOI 시퀀스를 생성합니다. 우리는 기하학 중심의 잡기 동작과 의미론 중심의 조작 동작을 분리하고, 후자를 간결한 3D 장면 토큰에 기반하여 조건부로 설정하며, 생성된 상호작용을 물리적 장면 레이아웃과 언어 지시에 모두 의미론적으로 연결하기 위해 동작-텍스트 정렬 손실을 사용합니다. 고품질의 HOI 데이터 부족 문제를 해결하기 위해, 대규모 에고센트릭 비디오에서 정렬된 손-객체 궤적과 메시를 복원하는 재구성 파이프라인을 도입하여, 강력한 HOI 생성을 위한 사전 지식을 확보합니다. GRAB 및 HOT3D 벤치마크에서 FlowHOI는 가장 높은 동작 인식 정확도를 달성했으며, 가장 강력한 확산 기반 모델보다 물리 시뮬레이션 성공률이 1.7배 높습니다. 또한, 추론 속도가 40배 빠릅니다. 우리는 또한 네 가지 숙련 조작 작업에서 실제 로봇 실행을 통해, 생성된 HOI 표현을 실제 로봇 실행 파이프라인으로 재타겟팅하는 가능성을 입증합니다.
Recent vision-language-action (VLA) models can generate plausible end-effector motions, yet they often fail in long-horizon, contact-rich tasks because the underlying hand-object interaction (HOI) structure is not explicitly represented. An embodiment-agnostic interaction representation that captures this structure would make manipulation behaviors easier to validate and transfer across robots. We propose FlowHOI, a two-stage flow-matching framework that generates semantically grounded, temporally coherent HOI sequences, comprising hand poses, object poses, and hand-object contact states, conditioned on an egocentric observation, a language instruction, and a 3D Gaussian splatting (3DGS) scene reconstruction. We decouple geometry-centric grasping from semantics-centric manipulation, conditioning the latter on compact 3D scene tokens and employing a motion-text alignment loss to semantically ground the generated interactions in both the physical scene layout and the language instruction. To address the scarcity of high-fidelity HOI supervision, we introduce a reconstruction pipeline that recovers aligned hand-object trajectories and meshes from large-scale egocentric videos, yielding an HOI prior for robust generation. Across the GRAB and HOT3D benchmarks, FlowHOI achieves the highest action recognition accuracy and a 1.7$\times$ higher physics simulation success rate than the strongest diffusion-based baseline, while delivering a 40$\times$ inference speedup. We further demonstrate real-robot execution on four dexterous manipulation tasks, illustrating the feasibility of retargeting generated HOI representations to real-robot execution pipelines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.