아키텍처에 독립적인 특징 동기화를 통한 이질적인 생성 위협에 대한 범용 방어
Architecture-Agnostic Feature Synergy for Universal Defense Against Heterogeneous Generative Threats
생성형 AI의 활용은 콘텐츠 안전 및 개인 정보 보호에 전례 없는 과제를 제시합니다. 그러나 기존의 방어 메커니즘은 종종 특정 아키텍처(예: 확산 모델 또는 GAN)에 맞춰 설계되어, 다양한 생성 위협에 취약한 "방어 격벽"을 형성합니다. 본 논문은 픽셀 공간 앙상블 전략에서 발생하는 근본적인 최적화 장벽을 지적합니다. 즉, 서로 다른 목적 함수로 인해 이질적인 생성기의 픽셀 레벨 기울기가 통계적으로 직교하게 되어 파괴적인 간섭을 초래합니다. 이를 극복하기 위해, 우리는 저수준 메커니즘의 차이에도 불구하고, 생성된 콘텐츠의 고수준 특징 표현은 아키텍처 간에 일관성을 보이는다는 것을 확인했습니다. 이를 바탕으로, 우리는 아키텍처에 독립적인 타겟 특징 동기화(ATFS) 프레임워크를 제안합니다. ATFS는 타겟 가이드 이미지 도입을 통해 다중 모델 방어를 통합된 특징 공간 정렬 문제로 재구성하여, 복잡한 수정 없이 내재적인 기울기 정렬을 가능하게 합니다. 광범위한 실험 결과, ATFS는 다양한 시나리오(예: 확산 모델 + GAN)에서 최첨단 수준의 보호 성능을 달성하는 것으로 나타났습니다. ATFS는 빠르게 수렴하여 40회 반복 이내에 90% 이상의 성능을 달성하며, 제한된 입력 변화량 하에서도 강력한 공격 방어 능력을 유지합니다. 이 프레임워크는 특징 추출기를 변경하여 새로운 아키텍처(예: VQ-VAE)에도 쉽게 적용할 수 있으며, JPEG 압축 및 크기 조정에 대한 강력한 저항성을 보여줍니다. ATFS는 계산 효율적이고 가벼워, 방어 격벽을 해체하고 범용 생성 보안을 가능하게 하는 실용적인 솔루션입니다. 코드 및 모델은 재현성을 위해 공개됩니다.
Generative AI deployment poses unprecedented challenges to content safety and privacy. However, existing defense mechanisms are often tailored to specific architectures (e.g., Diffusion Models or GANs), creating fragile "defense silos" that fail against heterogeneous generative threats. This paper identifies a fundamental optimization barrier in naive pixel-space ensemble strategies: due to divergent objective functions, pixel-level gradients from heterogeneous generators become statistically orthogonal, causing destructive interference. To overcome this, we observe that despite disparate low-level mechanisms, high-level feature representations of generated content exhibit alignment across architectures. Based on this, we propose the Architecture-Agnostic Targeted Feature Synergy (ATFS) framework. By introducing a target guidance image, ATFS reformulates multi-model defense as a unified feature space alignment task, enabling intrinsic gradient alignment without complex rectification. Extensive experiments show ATFS achieves SOTA protection in heterogeneous scenarios (e.g., Diffusion+GAN). It converges rapidly, reaching over 90% performance within 40 iterations, and maintains strong attack potency even under tight perturbation budgets. The framework seamlessly extends to unseen architectures (e.g., VQ-VAE) by switching the feature extractor, and demonstrates robust resistance to JPEG compression and scaling. Being computationally efficient and lightweight, ATFS offers a viable pathway to dismantle defense silos and enable universal generative security. Code and models are open-sourced for reproducibility.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.