망각은 경쟁이다: 확산 모델에서 역학습을 표현 간섭으로 재해석
Forgetting is Competition: Rethinking Unlearning as Representation Interference in Diffusion Models
텍스트-이미지 확산 모델에서의 역학습은 종종 불균등한 개념 제거를 초래하며, 관련된 기능의 의도치 않은 망각을 야기합니다. 이는 저작권 준수, 보호 데이터 완화, 아티스트의 선택권 행사, 정책 기반 콘텐츠 업데이트와 같은 작업을 복잡하게 만듭니다. 모델이 더 커지고 다양한 아키텍처를 채택함에 따라, 생성 품질을 유지하면서 정확하고 선택적인 역학습을 달성하는 것은 점점 더 어려워지고 있습니다. 본 논문에서는 특정 시각적 개념을 제거하기 위해 텍스트 기반 확산 모델에 대한 표적 가중치 공간 업데이트를 적용하는 'SurgUn'이라는 수술적 역학습 방법을 제안합니다. 우리의 접근 방식은 새로운 기억이 기존 기억을 덮어쓰거나 억제하여 공유 표현 경로를 놓고 경쟁함으로써 기존 기억에 접근하는 것을 방해한다는 역시간 간섭 이론에 의해 영감을 받았습니다. 우리는 이 원리를 확산 모델에 적용하여 역시간 개념 간섭을 유도함으로써, 표적 개념을 중심으로 안정성을 선택적으로 약화시키고, 새로운 훈련 패러다임을 통해 관련 없는 기능을 보존합니다. SurgUn은 다양한 환경에서 높은 정확도의 역학습을 달성하며, Stable Diffusion v1.5와 같은 소형 U-Net 기반 모델에서 강력한 성능을 보이고, 더 큰 U-Net 아키텍처인 SDXL로 효과적으로 확장되며, 역학습을 위한 덜 탐구된 확산 트랜스포머 기반 아키텍처인 SANA에도 적용 가능합니다.
Unlearning in text-to-image diffusion models often leads to uneven concept removal and unintended forgetting of unrelated capabilities. This complicates tasks such as copyright compliance, protected data mitigation, artist opt-outs, and policy-driven content updates. As models grow larger and adopt more diverse architectures, achieving precise and selective unlearning while preserving generative quality becomes increasingly challenging. We introduce SurgUn (pronounced as Surgeon), a surgical unlearning method that applies targeted weight-space updates to remove specific visual concepts in text-conditioned diffusion models. Our approach is motivated by retroactive interference theory, which holds that newly acquired memories can overwrite, suppress, or impede access to prior ones by competing for shared representational pathways. We adapt this principle to diffusion models by inducing retroactive concept interference, enabling focused destabilization of only the target concept while preserving unrelated capabilities through a novel training paradigm. SurgUn achieves high-precision unlearning across diverse settings. It performs strongly on compact U-Net based models such as Stable Diffusion v1.5, scales effectively to the larger U-Net architecture SDXL, and extends to SANA, representing an underexplored Diffusion Transformer based architecture for unlearning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.