OVS-DINO: 언어 지침을 활용한 구조 정렬 SAM-DINO 기반의 오픈 보카불러리 분할
OVS-DINO: Open-Vocabulary Segmentation via Structure-Aligned SAM-DINO with Language Guidance
오픈 보카불러리 분할(OVS)은 미리 정의된 범주 집합을 넘어서는 이미지 영역을 의미론적 설명을 활용하여 분할하는 것을 목표로 합니다. CLIP 기반 접근 방식은 의미론적 일반화에 뛰어나지만, 종종 밀집 예측에 필요한 세밀한 공간 인지 능력이 부족합니다. 최근 연구에서는 이러한 한계를 극복하기 위해 DINO와 같은 비전 기반 모델(VFM)을 통합하는 노력이 이루어졌습니다. 그러나 이러한 방법은 여전히 고품질 분할에 필요한 정확한 경계 인식에 어려움을 겪습니다. 본 논문에서는 DINO의 내부 표현을 분석하고, DINO가 내재하는 경계 인지 능력이 결여된 것이 아니라, 특징이 더 깊은 트랜스포머 블록으로 전달되는 과정에서 점진적으로 감소한다는 것을 발견했습니다. 이러한 문제를 해결하기 위해, 우리는 Segment Anything Model (SAM)과의 구조 정렬을 통해 DINO의 잠재적인 경계 감지 능력을 활성화하는 새로운 프레임워크인 OVS-DINO를 제안합니다. 구체적으로, 우리는 SAM의 구조적 사전 정보를 활용하여 DINO의 경계 특징을 효과적으로 활성화하는 구조 인식 인코더(SAE)와 구조 조절 디코더(SMD)를 도입하고, SAM이 생성한 가짜 마스크를 활용한 감독 전략을 사용합니다. 광범위한 실험 결과, 제안하는 방법은 여러 약하게 감독되는 OVS 벤치마크에서 최첨단 성능을 달성하며, 평균 점수가 2.1% 향상되었습니다 (44.8%에서 46.9%). 특히, 우리의 접근 방식은 복잡하고 혼잡한 시나리오에서 분할 정확도를 크게 향상시켜 Cityscapes 데이터셋에서 6.3%의 성능 향상을 보였습니다 (36.6%에서 42.9%).
Open-Vocabulary Segmentation (OVS) aims to segment image regions beyond predefined category sets by leveraging semantic descriptions. While CLIP based approaches excel in semantic generalization, they frequently lack the fine-grained spatial awareness required for dense prediction. Recent efforts have incorporated Vision Foundation Models (VFMs) like DINO to alleviate these limitations. However, these methods still struggle with the precise edge perception necessary for high fidelity segmentation. In this paper, we analyze internal representations of DINO and discover that its inherent boundary awareness is not absent but rather undergoes progressive attenuation as features transition into deeper transformer blocks. To address this, we propose OVS-DINO, a novel framework that revitalizes latent edge-sensitivity of DINO through structural alignment with the Segment Anything Model (SAM). Specifically, we introduce a Structure-Aware Encoder (SAE) and a Structure-Modulated Decoder (SMD) to effectively activate boundary features of DINO using SAM's structural priors, complemented by a supervision strategy utilizing SAM generated pseudo-masks. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple weakly-supervised OVS benchmarks, improving the average score by 2.1% (from 44.8% to 46.9%). Notably, our approach significantly enhances segmentation accuracy in complex, cluttered scenarios, with a gain of 6.3% on Cityscapes (from 36.6% to 42.9%).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.