OmniOVCD: SAM 3를 활용한 개방형 어휘 변화 탐지 간소화
OmniOVCD: Streamlining Open-Vocabulary Change Detection with SAM 3
변화 탐지(CD)는 원격 탐사의 핵심 작업으로, 시간에 따른 토지 피복의 변화를 모니터링합니다. 이를 기반으로 개방형 어휘 변화 탐지(OVCD)는 사전에 정의된 범주에 대한 의존도를 줄이는 것을 목표로 하는 새로운 요구 사항을 도입합니다. 기존의 학습이 필요 없는 OVCD 방법들은 주로 범주 식별을 위해 CLIP을 사용하며, 특징 추출을 위해 DINO와 같은 추가 모델이 필요합니다. 그러나 서로 다른 모델을 결합하는 것은 종종 특징 매칭 문제를 야기하고 시스템을 불안정하게 만듭니다. 최근 분할 및 식별 기능을 하나의 프롬프트 가능한 모델에 통합한 Segment Anything Model 3 (SAM 3)가 도입되어 OVCD 작업에 새로운 가능성을 열었습니다. 본 논문에서는 OVCD를 위해 설계된 독립형 프레임워크인 OmniOVCD를 제안합니다. SAM 3의 분리된 출력 헤드를 활용하여, 우리는 SFID(Synergistic Fusion to Instance Decoupling) 전략을 제안합니다. SFID는 먼저 SAM 3의 의미(semantic), 인스턴스(instance), 존재(presence) 출력을 융합하여 토지 피복 마스크를 구성한 후, 이를 개별 인스턴스 마스크로 분해하여 변화를 비교합니다. 이러한 설계는 범주 인식에서 높은 정확도를 보존하고 이미지 간 인스턴스 수준의 일관성을 유지합니다. 결과적으로 이 모델은 정확한 변화 마스크를 생성할 수 있습니다. 4개의 공개 벤치마크(LEVIR-CD, WHU-CD, S2Looking, SECOND)에 대한 실험에서 각각 67.2, 66.5, 24.5, 27.1(클래스 평균)의 IoU 점수를 달성하여 기존의 모든 방법을 능가하는 최고 수준(SOTA)의 성능을 입증했습니다.
Change Detection (CD) is a fundamental task in remote sensing. It monitors the evolution of land cover over time. Based on this, Open-Vocabulary Change Detection (OVCD) introduces a new requirement. It aims to reduce the reliance on predefined categories. Existing training-free OVCD methods mostly use CLIP to identify categories. These methods also need extra models like DINO to extract features. However, combining different models often causes problems in matching features and makes the system unstable. Recently, the Segment Anything Model 3 (SAM 3) is introduced. It integrates segmentation and identification capabilities within one promptable model, which offers new possibilities for the OVCD task. In this paper, we propose OmniOVCD, a standalone framework designed for OVCD. By leveraging the decoupled output heads of SAM 3, we propose a Synergistic Fusion to Instance Decoupling (SFID) strategy. SFID first fuses the semantic, instance, and presence outputs of SAM 3 to construct land-cover masks, and then decomposes them into individual instance masks for change comparison. This design preserves high accuracy in category recognition and maintains instance-level consistency across images. As a result, the model can generate accurate change masks. Experiments on four public benchmarks (LEVIR-CD, WHU-CD, S2Looking, and SECOND) demonstrate SOTA performance, achieving IoU scores of 67.2, 66.5, 24.5, and 27.1 (class-average), respectively, surpassing all previous methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.