2603.29386v1 Mar 31, 2026 cs.CV

PromptForge-350k: 프롬프트 기반 AI 이미지 위조 지역 탐지를 위한 대규모 데이터셋 및 대비 학습 프레임워크

PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization

Zhongjie Ba
Zhongjie Ba
Citations: 1,608
h-index: 19
Baoying Chen
Baoying Chen
Citations: 148
h-index: 3
Jishen Zeng
Jishen Zeng
Citations: 6
h-index: 1
Yi Qin
Yi Qin
Citations: 1,451
h-index: 18
Haoyu Wang
Haoyu Wang
Citations: 9
h-index: 1
Jianpeng Wang
Jianpeng Wang
Citations: 7
h-index: 2
Yiqian Yang
Yiqian Yang
Citations: 0
h-index: 0

최근 프롬프트 기반 AI 이미지 편집 기술의 확산은 악의적인 콘텐츠 제작 및 오정보 확산의 위험을 심화시키고 있습니다. 그러나 이러한 새로운 편집 기술을 대상으로 하는 위조 지역 탐지 방법은 아직 연구가 부족한 실정입니다. 이러한 격차를 해소하기 위해, 우리는 먼저 핵심점 정렬 및 의미 공간 유사성을 활용하여 편집된 영역에 대한 정확한 정답 마스크를 생성하는 완전 자동 마스크 어노테이션 프레임워크를 소개합니다. 이 프레임워크를 기반으로, 우리는 최첨단 프롬프트 기반 AI 이미지 편집 모델 4개를 포괄하는 대규모 위조 지역 탐지 데이터셋인 PromptForge-350k를 구축하여, 이 분야의 데이터 부족 문제를 완화합니다. 또한, 우리는 트리플 스트림 백본과 이미지 내 대비 학습을 특징으로 하는 효과적인 위조 지역 탐지 네트워크인 ICL-Net을 제안합니다. 이 설계는 모델이 매우 강력하고 일반화 가능한 법의학적 특징을 파악할 수 있도록 합니다. 광범위한 실험 결과, 제안된 방법은 PromptForge-350k 데이터셋에서 62.5%의 IoU를 달성하여, 최첨단 방법보다 5.1% 향상된 성능을 보였습니다. 또한, 일반적인 품질 저하에 대해 1% 미만의 IoU 감소를 보여주며, 보이지 않은 편집 모델에 대한 유망한 일반화 능력을 보여주어 평균 41.5%의 IoU를 달성했습니다.

Original Abstract

The rapid democratization of prompt-based AI image editing has recently exacerbated the risks associated with malicious content fabrication and misinformation. However, forgery localization methods targeting these emerging editing techniques remain significantly under-explored. To bridge this gap, we first introduce a fully automated mask annotating framework that leverages keypoint alignment and semantic space similarity to generate precise ground-truth masks for edited regions. Based on this framework, we construct PromptForge-350k, a large-scale forgery localization dataset covering four state-of-the-art prompt-based AI image editing models, thereby mitigating the data scarcity in this domain. Furthermore, we propose ICL-Net, an effective forgery localization network featuring a triple-stream backbone and intra-image contrastive learning. This design enables the model to capture highly robust and generalizable forensic features. Extensive experiments demonstrate that our method achieves an IoU of 62.5% on PromptForge-350k, outperforming SOTA methods by 5.1%. Additionally, it exhibits strong robustness against common degradations with an IoU drop of less than 1%, and shows promising generalization capabilities on unseen editing models, achieving an average IoU of 41.5%.

0 Citations
0 Influential
9.5 Altmetric
47.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!