MultiDiffSense: 객체의 형태 및 접촉 포즈에 조건화된 확산 기반 다중 모달 시촉각 이미지 생성
MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose
정렬된 시촉각 데이터셋을 확보하는 것은 특수 하드웨어와 대규모 데이터 수집을 필요로 하여 속도가 느리고 비용이 많이 든다. 합성 데이터 생성은 유망한 대안이지만, 기존 방법들은 일반적으로 단일 모달리티에 국한되어 교차 모달 학습을 제한한다. 본 논문에서는 단일 아키텍처 내에서 여러 비전 기반 촉각 센서(ViTac, TacTip, ViTacTip)의 이미지를 합성하는 통합 확산 모델인 MultiDiffSense를 제안한다. 본 제안 기법은 CAD에서 파생되어 포즈가 정렬된 깊이 맵과, 센서 유형 및 4자유도(4-DoF) 접촉 포즈를 인코딩하는 구조화된 프롬프트에 대한 이중 조건화를 사용하여, 제어 가능하고 물리적으로 일관된 다중 모달 합성을 가능하게 한다. 8개의 객체(학습된 5개, 새로운 3개)와 학습되지 않은 포즈에 대해 평가한 결과, MultiDiffSense는 Pix2Pix cGAN 베이스라인 모델 대비 SSIM에서 +36.3%(ViTac), +134.6%(ViTacTip), +64.7%(TacTip) 향상된 성능을 보였다. 다운스트림 3자유도(3-DoF) 포즈 추정 작업에서는 합성 데이터 50%와 실제 데이터 50%를 혼합함으로써, 경쟁력 있는 성능을 유지하는 동시에 필요한 실제 데이터의 양을 절반으로 줄일 수 있었다. MultiDiffSense는 촉각 센싱 분야의 데이터 수집 병목 현상을 완화하며, 로봇 애플리케이션을 위한 확장 가능하고 제어 가능한 다중 모달 데이터셋 생성을 가능하게 한다.
Acquiring aligned visuo-tactile datasets is slow and costly, requiring specialised hardware and large-scale data collection. Synthetic generation is promising, but prior methods are typically single-modality, limiting cross-modal learning. We present MultiDiffSense, a unified diffusion model that synthesises images for multiple vision-based tactile sensors (ViTac, TacTip, ViTacTip) within a single architecture. Our approach uses dual conditioning on CAD-derived, pose-aligned depth maps and structured prompts that encode sensor type and 4-DoF contact pose, enabling controllable, physically consistent multi-modal synthesis. Evaluating on 8 objects (5 seen, 3 novel) and unseen poses, MultiDiffSense outperforms a Pix2Pix cGAN baseline in SSIM by +36.3% (ViTac), +134.6% (ViTacTip), and +64.7% (TacTip). For downstream 3-DoF pose estimation, mixing 50% synthetic with 50% real halves the required real data while maintaining competitive performance. MultiDiffSense alleviates the data-collection bottleneck in tactile sensing and enables scalable, controllable multi-modal dataset generation for robotic applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.