2603.13028v1 Mar 13, 2026 cs.CR

한 번 정제하면 자유롭게 편집: 모델 불일치 상황에서의 이미지 보호 우회

Purify Once, Edit Freely: Breaking Image Protections under Model Mismatch

Zhonghai Wu
Zhonghai Wu
Citations: 98
h-index: 5
Shengfang Zhai
Shengfang Zhai
Citations: 317
h-index: 7
Qichen Zhao
Qichen Zhao
Citations: 10
h-index: 1
Xinjian Bai
Xinjian Bai
Citations: 101
h-index: 6
Qingni Shen
Qingni Shen
Citations: 67
h-index: 4
Qiqi Lin
Qiqi Lin
Citations: 4
h-index: 1
Yansong Gao
Yansong Gao
Citations: 173
h-index: 5

확산 모델은 고품질 이미지 편집을 가능하게 하지만, 무단 스타일 모방 및 유해 콘텐츠 생성에 악용될 위험도 있습니다. 이러한 위험을 완화하기 위해, 사전 예방적 이미지 보호 방법은 이미지 공유 전에 미세한 적대적 노이즈를 삽입하여 후속 편집 또는 미세 조정을 방해합니다. 그러나 실제 환경에서는 콘텐츠 소유자가 후속 처리 파이프라인을 통제할 수 없으며, 대체 모델에 최적화된 보호 기능은 공격자가 다른 확산 파이프라인을 사용할 때 효과가 없을 수 있습니다. 기존의 정제 방법은 보호 기능을 약화시킬 수 있지만, 종종 이미지 품질을 희생하며, 모델 아키텍처의 차이점을 고려하지 않는 경우가 많습니다. 본 연구에서는 모델 불일치 상황에서도 보호 기능의 지속성을 평가할 수 있는 통합적인 후처리 정제 프레임워크를 제안합니다. VAE-Trans (잠재 공간 투영을 통해 보호된 이미지를 수정하는 방법) 및 EditorClean (확산 트랜스포머를 사용하여 아키텍처의 이질성을 활용하는 지침 기반 재구성을 수행하는 방법)이라는 두 가지 실용적인 정제 방법을 제시합니다. 이 두 방법 모두 보호된 이미지 또는 방어 시스템의 내부 정보에 대한 접근 없이 작동합니다. 2,100개의 편집 작업과 6가지 대표적인 보호 방법으로 실험한 결과, EditorClean은 일관적으로 편집 가능성을 회복했습니다. 보호된 입력에 비해, EditorClean은 후속 편집에서 PSNR을 3-6dB 향상시키고, FID를 50-70% 감소시켰으며, 기존 정제 방법보다 약 2dB의 PSNR 향상과 30% 낮은 FID를 달성했습니다. 본 연구의 결과는 '한 번 정제하면 자유롭게 편집'이라는 새로운 실패 모드를 보여줍니다. 즉, 정제가 성공하면 보호 신호가 대부분 제거되어, 제약 없이 편집이 가능해집니다. 이는 모델 불일치 상황에서도 보호 기능을 평가하고, 다양한 공격자에게 강건한 방어를 설계해야 할 필요성을 강조합니다.

Original Abstract

Diffusion models enable high-fidelity image editing but can also be misused for unauthorized style imitation and harmful content generation. To mitigate these risks, proactive image protection methods embed small, often imperceptible adversarial perturbations into images before sharing to disrupt downstream editing or fine-tuning. However, in realistic post-release scenarios, content owners cannot control downstream processing pipelines, and protections optimized for a surrogate model may fail when attackers use mismatched diffusion pipelines. Existing purification methods can weaken protections but often sacrifice image quality and rarely examine architectural mismatch. We introduce a unified post-release purification framework to evaluate protection survivability under model mismatch. We propose two practical purifiers: VAE-Trans, which corrects protected images via latent-space projection, and EditorClean, which performs instruction-guided reconstruction with a Diffusion Transformer to exploit architectural heterogeneity. Both operate without access to protected images or defense internals. Across 2,100 editing tasks and six representative protection methods, EditorClean consistently restores editability. Compared to protected inputs, it improves PSNR by 3-6 dB and reduces FID by 50-70 percent on downstream edits, while outperforming prior purification baselines by about 2 dB PSNR and 30 percent lower FID. Our results reveal a purify-once, edit-freely failure mode: once purification succeeds, the protective signal is largely removed, enabling unrestricted editing. This highlights the need to evaluate protections under model mismatch and design defenses robust to heterogeneous attackers.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!