UNIC: 통일된 다중 모드 외부 접촉 추정 방법
UNIC: Learning Unified Multimodal Extrinsic Contact Estimation
접촉이 빈번하게 발생하는 조작 작업에서는 물체가 환경과 상호작용하는 외부 접촉을 정확하게 추정하는 것이 중요합니다. 이러한 외부 접촉 정보는 계획, 제어, 그리고 정책 학습에 필수적인 상황 정보를 제공합니다. 그러나 기존 방법들은 종종 제한적인 가정, 예를 들어 사전에 정의된 접촉 유형, 고정된 그립 구성, 또는 카메라 보정 등에 의존하며, 이는 새로운 물체에 대한 일반화 능력과 비정형 환경에서의 활용을 저해합니다. 본 논문에서는 사전 지식이나 카메라 보정이 필요 없는 통일된 다중 모드 외부 접촉 추정 프레임워크인 UNIC을 제시합니다. UNIC은 카메라 프레임에서 얻은 시각적 정보를 직접 인코딩하고, 이를 고유한 감각 및 촉각 정보와 완전히 데이터 기반 방식으로 통합합니다. UNIC은 장면 어포던스 맵을 기반으로 다양한 접촉 형식을 포괄하는 통일된 접촉 표현 방식을 도입하며, 랜덤 마스킹을 사용하는 다중 모드 융합 메커니즘을 사용하여 강력한 다중 모드 표현 학습을 가능하게 합니다. 광범위한 실험 결과는 UNIC이 안정적으로 작동함을 보여줍니다. UNIC은 알려지지 않은 접촉 위치에 대해 평균 9.6mm의 Chamfer 거리 오차를 달성하며, 알려지지 않은 물체에 대해 우수한 성능을 보이고, 일부 모드가 누락된 상황에서도 안정적이며, 동적인 카메라 시점에 적응할 수 있습니다. 이러한 결과는 외부 접촉 추정 기능을 접촉이 빈번하게 발생하는 조작 작업에 대한 실용적이고 다재다능한 기술로 확립합니다. 개요 및 하드웨어 실험 영상은 다음 링크에서 확인할 수 있습니다: https://youtu.be/xpMitkxN6Ls?si=7Vgj-aZ_P1wtnWZN
Contact-rich manipulation requires reliable estimation of extrinsic contacts-the interactions between a grasped object and its environment which provide essential contextual information for planning, control, and policy learning. However, existing approaches often rely on restrictive assumptions, such as predefined contact types, fixed grasp configurations, or camera calibration, that hinder generalization to novel objects and deployment in unstructured environments. In this paper, we present UNIC, a unified multimodal framework for extrinsic contact estimation that operates without any prior knowledge or camera calibration. UNIC directly encodes visual observations in the camera frame and integrates them with proprioceptive and tactile modalities in a fully data-driven manner. It introduces a unified contact representation based on scene affordance maps that captures diverse contact formations and employs a multimodal fusion mechanism with random masking, enabling robust multimodal representation learning. Extensive experiments demonstrate that UNIC performs reliably. It achieves a 9.6 mm average Chamfer distance error on unseen contact locations, performs well on unseen objects, remains robust under missing modalities, and adapts to dynamic camera viewpoints. These results establish extrinsic contact estimation as a practical and versatile capability for contact-rich manipulation. The overview and hardware experiment videos are at https://youtu.be/xpMitkxN6Ls?si=7Vgj-aZ_P1wtnWZN
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.