보기 어렵고, 분류하기 어려운: 미묘한 시각적 현상에 대한 생성적 및 기호적 학습
Hard to See, Hard to Label: Generative and Symbolic Acquisition for Subtle Visual Phenomena
머리카락처럼 가는 균열, 밀리미터 이하의 공극, 낮은 대비의 불순물과 같은 미묘한 시각적 이상 현상은 구조적으로 비정형적이면서 시각적으로 모호하여, 능동 학습 과정에서 라벨링하기 어렵고 간과되기 쉽습니다. 판별적 불확실성 또는 특징 다양성을 기반으로 하는 일반적인 데이터 수집 방법은 종종 지배적인 패턴을 과도하게 선택하는 반면, 데이터 공간의 희소하지만 중요한 영역은 충분히 탐색하지 못합니다. 이러한 문제는 특히 산업 결함 검사와 같이 이상 현상이 발생 빈도가 낮고 주변 구조와 구별하기 어려운 경우에 더욱 심각합니다. 이러한 문제를 해결하기 위해, 우리는 확산 기반의 난이도 지표와 계층적 의미적 커버리지 우선순위를 결합한 객체 검출을 위한 능동 학습 프레임워크인 GSAL을 제안합니다. 확산 모델은 재구성 오류와 노이즈 제거 변동성을 사용하여 이미지와 제안된 영역을 평가하며, 시각적으로 비정형적이거나 모호한 예제를 우선적으로 선택합니다. 그러나 확산 모델만으로는 데이터 수집이 지배적인 의미적 모드 내의 어려운 샘플을 반복적으로 선호하는 것을 방지할 수 없습니다. 따라서, 의미적 구성 요소는 후보 샘플을 세 단계의 개념 그래프로 구성하고, 표현되지 않은 의미적 영역의 커버리지를 촉진하는 동시에 해석 가능한 데이터 수집 이유를 제공합니다. GSAL은 시각적 난이도와 의미적 커버리지를 균형 있게 조절함으로써, 불확실성 기반 선택으로 인해 종종 간과되는 미묘하고 희귀한 객체를 더 효과적으로 검색합니다. 독점적인 박막 결함, Pascal VOC 및 MS COCO 데이터 세트에 대한 실험 결과, GSAL은 불확실성 기반, 다양성 기반 및 하이브리드 기반의 기존 방법보다 라벨 효율성과 희귀 클래스 검색 성능이 향상되는 것을 보여줍니다.
Subtle visual anomalies such as hairline cracks, sub-millimeter voids, and low-contrast inclusions are structurally atypical yet visually ambiguous, making them both difficult to annotate and easy to overlook during active learning. Standard acquisition heuristics based on discriminative uncertainty or feature diversity often overselect dominant patterns while underexploring sparse yet important regions of the data space. This failure mode is especially severe in industrial defect inspection, where anomalies may be both low-prevalence and difficult to distinguish from surrounding structure. To resolve this, we propose GSAL, an active learning framework for object detection that combines a diffusion-based difficulty signal with a hierarchical semantic coverage prior. The diffusion component scores images and proposals using reconstruction discrepancy and denoising variability, prioritizing visually atypical or ambiguous examples. However, diffusion alone does not prevent acquisition from repeatedly favoring hard samples within dominant semantic modes. The semantic component therefore organizes candidate samples in a three-level concept graph and promotes coverage of underrepresented semantic regions while providing interpretable acquisition rationales. By balancing visual difficulty with semantic coverage, GSAL improves retrieval of subtle and rare targets that are often missed by uncertainty-only selection. Experiments on a proprietary thin-film defect, Pascal VOC and MS COCO dataset show consistent gains in label efficiency and rare-class retrieval over uncertainty-, diversity-, and hybrid-based baselines
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.