IAD-Unify: 산업용 이상 감지, 이해 및 생성에 대한 영역 기반 통합 모델
IAD-Unify: A Region-Grounded Unified Model for Industrial Anomaly Segmentation, Understanding, and Generation
실제 산업 검사에서는 결함을 감지하는 것뿐만 아니라 자연어로 설명하고, 제어된 방식으로 결함을 수정하는 것도 필요합니다. 그러나 기존의 방법들은 이러한 세 가지 기능을 하나의 통합 프레임워크와 평가 프로토콜 내에서 동시에 지원하지 못합니다. 본 논문에서는 IAD-Unify를 제안합니다. IAD-Unify는 두 개의 인코더로 구성된 통합 프레임워크로, 고정된 DINOv2 기반의 영역 전문가가 가벼운 토큰 주입을 통해 공유된 Qwen3.5-4B 기반의 시각-언어 백본에 정확한 이상 징후를 제공하여, 이상 감지, 영역 기반 이해 및 마스크 기반 생성을 동시에 가능하게 합니다. 통합적인 평가를 위해, 59,916장의 이미지와 24개 카테고리, 104가지 결함 변형을 포함하는 포괄적인 통합 다중 작업 IAD 평가 플랫폼인 Anomaly-56K를 구축했습니다. 제어된 실험을 통해 다음과 같은 네 가지 결과를 얻었습니다. (i) 영역 기반 정보는 이해 능력에 결정적인 역할을 하며, 이를 제거하면 위치 정확도가 76% 이상 저하됩니다. (ii) 예측된 영역의 성능은 실제 값과 매우 유사하여 실제 적용 가능성을 확인했습니다. (iii) 영역 기반 생성을 통해 전체 이미지의 충실도와 마스크 영역의 시각적 품질이 가장 우수합니다. (iv) 사전 초기화된 공동 학습은 생성 성능에 거의 영향을 주지 않으면서(오차율 -0.16 dB) 이해 능력을 향상시킵니다. IAD-Unify는 학습 과정에서 보지 못한 카테고리를 포함한 MMAD 벤치마크에서도 뛰어난 성능을 보여주며, 다양한 카테고리에 대한 강력한 일반화 능력을 입증합니다.
Real-world industrial inspection requires not only localizing defects, but also explaining them in natural language and generating controlled defect edits. However, existing approaches fail to jointly support all three capabilities within a unified framework and evaluation protocol. We propose IAD-Unify, a dual-encoder unified framework in which a frozen DINOv2-based region expert supplies precise anomaly evidence to a shared Qwen3.5-4B vision-language backbone via lightweight token injection, jointly enabling anomaly segmentation, region-grounded understanding, and mask-guided generation. To enable unified evaluation, we further construct Anomaly-56K, a comprehensive unified multi-task IAD evaluation platform, spanning 59,916 images across 24 categories and 104 defect variants. Controlled ablations yield four findings: (i) region grounding is the decisive mechanism for understanding, removing it degrades location accuracy by >76 pp; (ii) predicted-region performance closely matches oracle, confirming deployment viability; (iii) region-grounded generation achieves the best full-image fidelity and masked-region perceptual quality; and (iv) pre-initialized joint training improves understanding at negligible generation cost (-0.16 dB). IAD-Unify further achieves strong performance on the MMAD benchmark, including categories unseen during training, demonstrating robust cross-category generalization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.