자기 회귀 이미지 생성 모델의 워터마킹 강건성 연구
On the Robustness of Watermarking for Autoregressive Image Generation
자기 회귀(AR) 이미지 생성기의 확산은 허위 정보 확산을 방지하고, 모델 붕괴를 예방하기 위해 합성 이미지를 학습 데이터에서 걸러내는 데 필수적인, 해당 결과물의 신뢰성 있는 탐지 및 출처 추적을 요구합니다. 이러한 요구사항을 해결하기 위해, AR 모델에 특화된 워터마킹 기법은 생성 시 미세한 신호를 삽입하여, 이를 통해 해당 워터마크 감지기를 사용하여 하위 작업에서 검증을 가능하게 합니다. 본 연구에서는 이러한 기법들을 분석하고, 워터마크 제거 및 위조 공격에 대한 취약점을 입증합니다. 기존 공격들을 평가하고, 추가적으로 세 가지 새로운 공격 방법(i) 벡터 양자화 기반 재생 제거 공격, (ii) 적대적 최적화 기반 공격, (iii) 주파수 주입 공격을 제시합니다. 우리의 평가는, 단 하나의 워터마크가 삽입된 참조 이미지만을 사용하거나, 원본 모델 파라미터나 워터마킹 비밀 정보에 접근하지 않고도 워터마크 제거 및 위조 공격이 효과적일 수 있음을 보여줍니다. 이러한 결과는, 기존의 AR 이미지 생성 워터마킹 기법이 데이터셋 필터링을 위한 합성 콘텐츠 탐지에 충분히 신뢰성을 제공하지 못한다는 것을 시사합니다. 또한, 이러한 기법은 '워터마크 모방(Watermark Mimicry)'을 가능하게 합니다. 즉, 원본 이미지를 조작하여 특정 생성기의 워터마크를 흉내내어, 오탐을 유발하고, 결과적으로 해당 이미지가 향후 모델 학습에 포함되는 것을 방지할 수 있습니다.
The proliferation of autoregressive (AR) image generators demands reliable detection and attribution of their outputs to mitigate misinformation, and to filter synthetic images from training data to prevent model collapse. To address this need, watermarking techniques, specifically designed for AR models, embed a subtle signal at generation time, enabling downstream verification through a corresponding watermark detector. In this work, we study these schemes and demonstrate their vulnerability to both watermark removal and forgery attacks. We assess existing attacks and further introduce three new attacks: (i) a vector-quantized regeneration removal attack, (ii) adversarial optimization-based attack, and (iii) a frequency injection attack. Our evaluation reveals that removal and forgery attacks can be effective with access to a single watermarked reference image and without access to original model parameters or watermarking secrets. Our findings indicate that existing watermarking schemes for AR image generation do not reliably support synthetic content detection for dataset filtering. Moreover, they enable Watermark Mimicry, whereby authentic images can be manipulated to imitate a generator's watermark and trigger false detection to prevent their inclusion in future model training.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.