EgoGrasp: 자아 시점 동영상으로부터 3차원 손-객체 상호작용 추정
EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos
본 논문에서는 첫 번째로, 야생 환경에서 동적인 카메라를 사용하는 자아 시점 단안 동영상으로부터 3차원 손-객체 상호작용(W-HOI)을 재구성하는 방법인 EgoGrasp를 제안합니다. 정확한 W-HOI 재구성은 인간 행동을 이해하고, 인체 지능 및 가상 현실 분야의 응용을 가능하게 하는 데 매우 중요합니다. 그러나 기존의 손-객체 상호작용(HOI) 방법은 단일 이미지 또는 카메라 좌표에 제한되며, 시간적 동역학이나 일관된 글로벌 궤적을 모델링하지 못합니다. 일부 최근 연구에서는 3차원 손 위치 추정을 시도하지만, 객체 자세 및 HOI 제약 조건을 고려하지 않습니다. 또한, 이러한 방법은 자아 시점 야생 환경 동영상에서 흔히 발생하는 심각한 카메라 움직임 및 빈번한 가려짐 현상으로 인해 성능이 저하됩니다. 이러한 문제점을 해결하기 위해, 우리는 새롭게 개발된 공간 지능 모델을 기반으로 한 견고한 전처리 파이프라인, 분리된 확산 모델을 기반으로 한 전체 신체 HOI 사전 모델, 그리고 다중 목적 테스트 시간 최적화 패러다임을 갖춘 다단계 프레임워크를 소개합니다. 우리의 HOI 사전 모델은 템플릿 없이 작동하며 여러 객체에 적용 가능합니다. 실험을 통해, 저희 방법이 W-HOI 재구성에 있어 최첨단 성능을 달성함을 입증했습니다.
We propose EgoGrasp, the first method to reconstruct world-space hand-object interactions (W-HOI) from egocentric monocular videos with dynamic cameras in the wild. Accurate W-HOI reconstruction is critical for understanding human behavior and enabling applications in embodied intelligence and virtual reality. However, existing hand-object interactions (HOI) methods are limited to single images or camera coordinates, failing to model temporal dynamics or consistent global trajectories. Some recent approaches attempt world-space hand estimation but overlook object poses and HOI constraints. Their performance also suffers under severe camera motion and frequent occlusions common in egocentric in-the-wild videos. To address these challenges, we introduce a multi-stage framework with a robust pre-process pipeline built on newly developed spatial intelligence models, a whole-body HOI prior model based on decoupled diffusion models, and a multi-objective test-time optimization paradigm. Our HOI prior model is template-free and scalable to multiple objects. In experiments, we prove our method achieving state-of-the-art performance in W-HOI reconstruction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.