2602.19348v1 Feb 22, 2026 cs.CV

MultiDiffSense: 객체의 형태 및 접촉 포즈에 조건화된 확산 기반 다중 모달 시촉각 이미지 생성

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

Sirine Bhouri
Sirine Bhouri
Citations: 0
h-index: 0
Lan Wei
Lan Wei
Citations: 183
h-index: 2
Jian Zheng
Jian Zheng
Citations: 139
h-index: 4
Dandan Zhang
Dandan Zhang
Citations: 5
h-index: 1

정렬된 시촉각 데이터셋을 확보하는 것은 특수 하드웨어와 대규모 데이터 수집을 필요로 하여 속도가 느리고 비용이 많이 든다. 합성 데이터 생성은 유망한 대안이지만, 기존 방법들은 일반적으로 단일 모달리티에 국한되어 교차 모달 학습을 제한한다. 본 논문에서는 단일 아키텍처 내에서 여러 비전 기반 촉각 센서(ViTac, TacTip, ViTacTip)의 이미지를 합성하는 통합 확산 모델인 MultiDiffSense를 제안한다. 본 제안 기법은 CAD에서 파생되어 포즈가 정렬된 깊이 맵과, 센서 유형 및 4자유도(4-DoF) 접촉 포즈를 인코딩하는 구조화된 프롬프트에 대한 이중 조건화를 사용하여, 제어 가능하고 물리적으로 일관된 다중 모달 합성을 가능하게 한다. 8개의 객체(학습된 5개, 새로운 3개)와 학습되지 않은 포즈에 대해 평가한 결과, MultiDiffSense는 Pix2Pix cGAN 베이스라인 모델 대비 SSIM에서 +36.3%(ViTac), +134.6%(ViTacTip), +64.7%(TacTip) 향상된 성능을 보였다. 다운스트림 3자유도(3-DoF) 포즈 추정 작업에서는 합성 데이터 50%와 실제 데이터 50%를 혼합함으로써, 경쟁력 있는 성능을 유지하는 동시에 필요한 실제 데이터의 양을 절반으로 줄일 수 있었다. MultiDiffSense는 촉각 센싱 분야의 데이터 수집 병목 현상을 완화하며, 로봇 애플리케이션을 위한 확장 가능하고 제어 가능한 다중 모달 데이터셋 생성을 가능하게 한다.

Original Abstract

Acquiring aligned visuo-tactile datasets is slow and costly, requiring specialised hardware and large-scale data collection. Synthetic generation is promising, but prior methods are typically single-modality, limiting cross-modal learning. We present MultiDiffSense, a unified diffusion model that synthesises images for multiple vision-based tactile sensors (ViTac, TacTip, ViTacTip) within a single architecture. Our approach uses dual conditioning on CAD-derived, pose-aligned depth maps and structured prompts that encode sensor type and 4-DoF contact pose, enabling controllable, physically consistent multi-modal synthesis. Evaluating on 8 objects (5 seen, 3 novel) and unseen poses, MultiDiffSense outperforms a Pix2Pix cGAN baseline in SSIM by +36.3% (ViTac), +134.6% (ViTacTip), and +64.7% (TacTip). For downstream 3-DoF pose estimation, mixing 50% synthetic with 50% real halves the required real data while maintaining competitive performance. MultiDiffSense alleviates the data-collection bottleneck in tactile sensing and enables scalable, controllable multi-modal dataset generation for robotic applications.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!