2604.08915v1 Apr 10, 2026 cs.CV

대규모 범용 결함 생성: 기초 모델 및 데이터셋

Large-Scale Universal Defect Generation: Foundation Models and Datasets

Xiaochen Chen
Xiaochen Chen
Citations: 88
h-index: 3
Yuhuan Lin
Yuhuan Lin
Citations: 46
h-index: 3
Jiawei Zhan
Jiawei Zhan
Citations: 4
h-index: 1
Chengjie Wang
Chengjie Wang
Citations: 208
h-index: 9
Yuanting Fan
Yuanting Fan
Citations: 3
h-index: 1
Jun Liu
Jun Liu
Citations: 33
h-index: 3
Bingjie Gao
Bingjie Gao
Citations: 22
h-index: 2
Zhewei Dai
Zhewei Dai
Citations: 15
h-index: 1

기존의 결함/이상 감지 생성 방법은 종종 소규모 학습에 의존하는데, 이는 대규모의 결함 편집 데이터 부족으로 인해 특정 결함 범주에 과적합되는 경향이 있습니다. 결함의 크기와 형태의 상당한 변화는 일반화 성능 저하, 현실감 저하, 범주 일관성 문제를 더욱 악화시킵니다. 우리는 이러한 문제를 해결하기 위해 300만 개의 정상-이상-마스크-캡션 4중 데이터셋인 UDG를 소개하고, 각 범주별 미세 조정 없이 참조 기반 결함 생성과 텍스트 기반 결함 편집을 모두 지원하는 범용 결함 생성 기초 모델인 UniDG를 제시합니다. UniDG는 적응적 결함 자르기 및 구조화된 듀티치 입력 형식을 통해 결함-컨텍스트 편집을 수행하며, MM-DiT 다중 모드 주의 메커니즘을 통해 참조 및 대상 조건을 결합합니다. 다양성을 개선하는 Diversity-SFT와 현실감 및 참조 일관성을 향상시키는 Consistency-RFT를 결합한 2단계 학습 전략을 통해 성능을 더욱 향상시켰습니다. MVTec-AD 및 VisA 데이터셋에 대한 광범위한 실험 결과, UniDG는 기존의 소규모 학습 기반 이상 감지 및 이미지 삽입/편집 방법보다 합성 품질이 우수하며, 단일 및 다중 클래스 이상 감지/정위화 성능 또한 뛰어납니다. 코드 및 관련 자료는 https://github.com/RetoFan233/UniDG 에서 확인할 수 있습니다.

Original Abstract

Existing defect/anomaly generation methods often rely on few-shot learning, which overfits to specific defect categories due to the lack of large-scale paired defect editing data. This issue is aggravated by substantial variations in defect scale and morphology, resulting in limited generalization, degraded realism, and category consistency. We address these challenges by introducing UDG, a large-scale dataset of 300K normal-abnormal-mask-caption quadruplets spanning diverse domains, and by presenting UniDG, a universal defect generation foundation model that supports both reference-based defect generation and text instruction-based defect editing without per-category fine-tuning. UniDG performs Defect-Context Editing via adaptive defect cropping and structured diptych input format, and fuses reference and target conditions through MM-DiT multimodal attention. A two-stage training strategy, Diversity-SFT followed by Consistency-RFT, further improves diversity while enhancing realism and reference consistency. Extensive experiments on MVTec-AD and VisA show that UniDG outperforms prior few-shot anomaly generation and image insertion/editing baselines in synthesis quality and downstream single- and multi-class anomaly detection/localization. Code will be available at https://github.com/RetoFan233/UniDG.

0 Citations
0 Influential
24.5 Altmetric
122.5 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!