2603.03939v1 Mar 04, 2026 cs.CV

2D-3D 다중 모드 산업 이상 감지를 위한 교차 모드 매핑 및 이중 분기 재구축

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Radia Daci
Radia Daci
Citations: 0
h-index: 0
V. Renó
V. Renó
Citations: 1,358
h-index: 20
Cosimo Patruno
Cosimo Patruno
Citations: 393
h-index: 10
A. Cardellicchio
A. Cardellicchio
Citations: 882
h-index: 14
Abdelmalik Taleb-Ahmed
Abdelmalik Taleb-Ahmed
Citations: 370
h-index: 9
Marco Leo
Marco Leo
Citations: 26
h-index: 3
C. Distante
C. Distante
Citations: 5,872
h-index: 35

다중 모드 산업 이상 감지는 RGB 이미지의 외관 정보와 3D 표면 형상 정보를 통합함으로써 이점을 얻을 수 있지만, 기존의 extit{비지도} 학습 방법은 종종 메모리 뱅크, 교수-학생 아키텍처 또는 불안정한 융합 방식을 사용하며, 이는 노이즈가 많은 깊이 정보, 약한 텍스처 또는 누락된 모드 환경에서 견고성을 제한합니다. 본 논문에서는 가볍고 모드 유연성을 갖춘 비지도 학습 프레임워크인 extbf{CMDR-IAD}를 제안합니다. extbf{CMDR-IAD}는 2D+3D 다중 모드 환경뿐만 아니라 단일 모드(2D만 또는 3D만) 환경에서도 신뢰할 수 있는 이상 감지를 수행합니다. extbf{CMDR-IAD}는 양방향 2D ↔ 3D 교차 모드 매핑을 통해 외관-형상 일관성을 모델링하고, 또한 독립적으로 일반적인 텍스처와 기하학적 구조를 캡처하는 이중 분기 재구축을 사용합니다. 두 부분으로 구성된 융합 전략은 다음과 같습니다. 신뢰도 기반 매핑 이상은 공간적으로 일관된 텍스처-형상 불일치를 강조하고, 가중치가 적용된 재구축 이상은 외관 및 기하학적 편차를 적응적으로 균형 있게 조정하여, 깊이 정보가 부족하거나 텍스처가 낮은 영역에서도 안정적이고 정확한 이상 감지를 가능하게 합니다. MVTec 3D-AD 벤치마크에서 CMDR-IAD는 메모리 뱅크 없이 최첨단 성능을 달성했으며, 이미지 레벨 AUROC (I-AUROC) 97.3%, 픽셀 레벨 AUROC (P-AUROC) 99.6%, AUPRO 97.6%를 기록했습니다. 실제 폴리우레탄 절단 데이터셋에서 3D만 사용하는 모델은 I-AUROC 92.6% 및 P-AUROC 92.5%를 달성하여 실제 산업 환경에서 강력한 효과를 입증했습니다. 이러한 결과는 본 프레임워크의 견고성, 모드 유연성 및 제안된 융합 전략의 효과를 강조합니다. 본 연구의 소스 코드는 https://github.com/ECGAI-Research/CMDR-IAD/ 에서 확인할 수 있습니다.

Original Abstract

Multimodal industrial anomaly detection benefits from integrating RGB appearance with 3D surface geometry, yet existing \emph{unsupervised} approaches commonly rely on memory banks, teacher-student architectures, or fragile fusion schemes, limiting robustness under noisy depth, weak texture, or missing modalities. This paper introduces \textbf{CMDR-IAD}, a lightweight and modality-flexible unsupervised framework for reliable anomaly detection in 2D+3D multimodal as well as single-modality (2D-only or 3D-only) settings. \textbf{CMDR-IAD} combines bidirectional 2D$\leftrightarrow$3D cross-modal mapping to model appearance-geometry consistency with dual-branch reconstruction that independently captures normal texture and geometric structure. A two-part fusion strategy integrates these cues: a reliability-gated mapping anomaly highlights spatially consistent texture-geometry discrepancies, while a confidence-weighted reconstruction anomaly adaptively balances appearance and geometric deviations, yielding stable and precise anomaly localization even in depth-sparse or low-texture regions. On the MVTec 3D-AD benchmark, CMDR-IAD achieves state-of-the-art performance while operating without memory banks, reaching 97.3\% image-level AUROC (I-AUROC), 99.6\% pixel-level AUROC (P-AUROC), and 97.6\% AUPRO. On a real-world polyurethane cutting dataset, the 3D-only variant attains 92.6\% I-AUROC and 92.5\% P-AUROC, demonstrating strong effectiveness under practical industrial conditions. These results highlight the framework's robustness, modality flexibility, and the effectiveness of the proposed fusion strategies for industrial visual inspection. Our source code is available at https://github.com/ECGAI-Research/CMDR-IAD/

0 Citations
0 Influential
44.431471805599 Altmetric
222.2 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!