PromptForge-350k: 프롬프트 기반 AI 이미지 위조 지역 탐지를 위한 대규모 데이터셋 및 대비 학습 프레임워크
PromptForge-350k: A Large-Scale Dataset and Contrastive Framework for Prompt-Based AI Image Forgery Localization
최근 프롬프트 기반 AI 이미지 편집 기술의 확산은 악의적인 콘텐츠 제작 및 오정보 확산의 위험을 심화시키고 있습니다. 그러나 이러한 새로운 편집 기술을 대상으로 하는 위조 지역 탐지 방법은 아직 연구가 부족한 실정입니다. 이러한 격차를 해소하기 위해, 우리는 먼저 핵심점 정렬 및 의미 공간 유사성을 활용하여 편집된 영역에 대한 정확한 정답 마스크를 생성하는 완전 자동 마스크 어노테이션 프레임워크를 소개합니다. 이 프레임워크를 기반으로, 우리는 최첨단 프롬프트 기반 AI 이미지 편집 모델 4개를 포괄하는 대규모 위조 지역 탐지 데이터셋인 PromptForge-350k를 구축하여, 이 분야의 데이터 부족 문제를 완화합니다. 또한, 우리는 트리플 스트림 백본과 이미지 내 대비 학습을 특징으로 하는 효과적인 위조 지역 탐지 네트워크인 ICL-Net을 제안합니다. 이 설계는 모델이 매우 강력하고 일반화 가능한 법의학적 특징을 파악할 수 있도록 합니다. 광범위한 실험 결과, 제안된 방법은 PromptForge-350k 데이터셋에서 62.5%의 IoU를 달성하여, 최첨단 방법보다 5.1% 향상된 성능을 보였습니다. 또한, 일반적인 품질 저하에 대해 1% 미만의 IoU 감소를 보여주며, 보이지 않은 편집 모델에 대한 유망한 일반화 능력을 보여주어 평균 41.5%의 IoU를 달성했습니다.
The rapid democratization of prompt-based AI image editing has recently exacerbated the risks associated with malicious content fabrication and misinformation. However, forgery localization methods targeting these emerging editing techniques remain significantly under-explored. To bridge this gap, we first introduce a fully automated mask annotating framework that leverages keypoint alignment and semantic space similarity to generate precise ground-truth masks for edited regions. Based on this framework, we construct PromptForge-350k, a large-scale forgery localization dataset covering four state-of-the-art prompt-based AI image editing models, thereby mitigating the data scarcity in this domain. Furthermore, we propose ICL-Net, an effective forgery localization network featuring a triple-stream backbone and intra-image contrastive learning. This design enables the model to capture highly robust and generalizable forensic features. Extensive experiments demonstrate that our method achieves an IoU of 62.5% on PromptForge-350k, outperforming SOTA methods by 5.1%. Additionally, it exhibits strong robustness against common degradations with an IoU drop of less than 1%, and shows promising generalization capabilities on unseen editing models, achieving an average IoU of 41.5%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.