2601.01050v1 Jan 03, 2026 cs.CV

EgoGrasp: 자아 시점 동영상으로부터 3차원 손-객체 상호작용 추정

EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos

Hongming Fu
Hongming Fu
Citations: 5
h-index: 1
Wenjia Wang
Wenjia Wang
Citations: 214
h-index: 5
Xiaozhen Qiao
Xiaozhen Qiao
Citations: 42
h-index: 4
Shuo Yang
Shuo Yang
Citations: 8
h-index: 2
Zheng Liu
Zheng Liu
Citations: 7
h-index: 2
Bo Zhao
Bo Zhao
Citations: 24
h-index: 3

본 논문에서는 첫 번째로, 야생 환경에서 동적인 카메라를 사용하는 자아 시점 단안 동영상으로부터 3차원 손-객체 상호작용(W-HOI)을 재구성하는 방법인 EgoGrasp를 제안합니다. 정확한 W-HOI 재구성은 인간 행동을 이해하고, 인체 지능 및 가상 현실 분야의 응용을 가능하게 하는 데 매우 중요합니다. 그러나 기존의 손-객체 상호작용(HOI) 방법은 단일 이미지 또는 카메라 좌표에 제한되며, 시간적 동역학이나 일관된 글로벌 궤적을 모델링하지 못합니다. 일부 최근 연구에서는 3차원 손 위치 추정을 시도하지만, 객체 자세 및 HOI 제약 조건을 고려하지 않습니다. 또한, 이러한 방법은 자아 시점 야생 환경 동영상에서 흔히 발생하는 심각한 카메라 움직임 및 빈번한 가려짐 현상으로 인해 성능이 저하됩니다. 이러한 문제점을 해결하기 위해, 우리는 새롭게 개발된 공간 지능 모델을 기반으로 한 견고한 전처리 파이프라인, 분리된 확산 모델을 기반으로 한 전체 신체 HOI 사전 모델, 그리고 다중 목적 테스트 시간 최적화 패러다임을 갖춘 다단계 프레임워크를 소개합니다. 우리의 HOI 사전 모델은 템플릿 없이 작동하며 여러 객체에 적용 가능합니다. 실험을 통해, 저희 방법이 W-HOI 재구성에 있어 최첨단 성능을 달성함을 입증했습니다.

Original Abstract

We propose EgoGrasp, the first method to reconstruct world-space hand-object interactions (W-HOI) from egocentric monocular videos with dynamic cameras in the wild. Accurate W-HOI reconstruction is critical for understanding human behavior and enabling applications in embodied intelligence and virtual reality. However, existing hand-object interactions (HOI) methods are limited to single images or camera coordinates, failing to model temporal dynamics or consistent global trajectories. Some recent approaches attempt world-space hand estimation but overlook object poses and HOI constraints. Their performance also suffers under severe camera motion and frequent occlusions common in egocentric in-the-wild videos. To address these challenges, we introduce a multi-stage framework with a robust pre-process pipeline built on newly developed spatial intelligence models, a whole-body HOI prior model based on decoupled diffusion models, and a multi-objective test-time optimization paradigm. Our HOI prior model is template-free and scalable to multiple objects. In experiments, we prove our method achieving state-of-the-art performance in W-HOI reconstruction.

4 Citations
1 Influential
2.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!