2601.06222v1 Jan 09, 2026 cs.CV

SAPL: CLIP을 위한 의미론적 무관 프롬프트 학습 - 약하게 감독되는 이미지 조작 위치 추정

SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization

Xinghao Wang
Xinghao Wang
Citations: 5
h-index: 2
Changtao Miao
Changtao Miao
Citations: 517
h-index: 12
Dianmo Sheng
Dianmo Sheng
Citations: 130
h-index: 4
Tao Gong
Tao Gong
Citations: 253
h-index: 7
Qi Chu
Qi Chu
Citations: 388
h-index: 4
Nenghai Yu
Nenghai Yu
Citations: 360
h-index: 9
Quanchen Zou
Quanchen Zou
Citations: 144
h-index: 5
Deyue Zhang
Deyue Zhang
Citations: 133
h-index: 4
Xiangzheng Zhang
Xiangzheng Zhang
Citations: 12
h-index: 2

악의적인 이미지 조작은 공공의 안전을 위협하며, 효율적인 위치 추정 방법이 필요합니다. 기존 방법들은 비용이 많이 드는 픽셀 단위 어노테이션에 의존하여 훈련 비용이 높습니다. 기존의 약하게 감독되는 방법들은 이미지 레벨의 이진 레이블에만 의존하며, 정확한 위치 추정에 중요한 국소적인 엣지 정보를 간과하는 경향이 있습니다. 우리는 조작 영역 경계에서 나타나는 특징 변화가 내부 영역보다 훨씬 크다는 것을 관찰했습니다. 이러한 문제를 해결하기 위해, 우리는 CLIP에서 의미론적 무관 프롬프트 학습(SAPL)을 제안합니다. SAPL은 CLIP의 다중 모드 유사성 기능을 활용하여, 고수준 객체 의미론 대신 조작 영역의 엣지에 집중하도록 의도적으로 비의미적인, 경계 중심적인 정보를 인코딩하는 텍스트 프롬프트를 학습합니다. SAPL은 텍스트 및 이미지 공간에서 엣지 정보를 활용하는 두 가지 상호 보완적인 모듈, 즉 엣지 인지 컨텍스트 프롬프트 학습(ECPL)과 계층적 엣지 대비 학습(HECL)을 결합합니다. 제안된 ECPL은 어텐션 메커니즘을 사용하여 엣지 강화된 이미지 특징을 기반으로 학습 가능한 텍스트 프롬프트를 생성하고, CLIP이 조작 영역 엣지에 집중하도록 텍스트 특징에 의미와 관련 없는 정보를 포함시킵니다. 제안된 HECL은 실제 엣지 패치와 조작된 엣지 패치를 추출하고, 대비 학습을 통해 실제 엣지 패치와 조작된 엣지 패치 간의 구별 능력을 향상시킵니다. 마지막으로, 처리 후 유사성 맵에서 조작된 영역을 예측합니다. 여러 공개 벤치마크에서의 광범위한 실험 결과, SAPL이 기존 방법보다 현저히 우수한 성능을 보이며, 최첨단 위치 추정 성능을 달성하는 것을 보여줍니다.

Original Abstract

Malicious image manipulation threatens public safety and requires efficient localization methods. Existing approaches depend on costly pixel-level annotations which make training expensive. Existing weakly supervised methods rely only on image-level binary labels and focus on global classification, often overlooking local edge cues that are critical for precise localization. We observe that feature variations at manipulated boundaries are substantially larger than in interior regions. To address this gap, we propose Semantic-Agnostic Prompt Learning (SAPL) in CLIP, which learns text prompts that intentionally encode non-semantic, boundary-centric cues so that CLIPs multimodal similarity highlights manipulation edges rather than high-level object semantics. SAPL combines two complementary modules Edge-aware Contextual Prompt Learning (ECPL) and Hierarchical Edge Contrastive Learning (HECL) to exploit edge information in both textual and visual spaces. The proposed ECPL leverages edge-enhanced image features to generate learnable textual prompts via an attention mechanism, embedding semantic-irrelevant information into text features, to guide CLIP focusing on manipulation edges. The proposed HECL extract genuine and manipulated edge patches, and utilize contrastive learning to boost the discrimination between genuine edge patches and manipulated edge patches. Finally, we predict the manipulated regions from the similarity map after processing. Extensive experiments on multiple public benchmarks demonstrate that SAPL significantly outperforms existing approaches, achieving state-of-the-art localization performance.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!