DICE: 확산 모델에서 대조적 서브스페이스 분해를 통한 아티스트 스타일과 콘텐츠 분리
DICE: Disentangling Artist Style from Content via Contrastive Subspace Decomposition in Diffusion Models
최근 확산 모델의 급속한 발전으로 인해 사용자는 허가 없이 독특한 예술 스타일을 쉽게 모방할 수 있게 되었습니다. 이는 배포 플랫폼에서 저작권 및 지적 재산권 관련 위험을 야기하며, 신뢰할 수 있는 보호 방안 마련이 필요합니다. 그러나 기존의 대응책은 새로운 스타일이 등장할 때마다 비용이 많이 드는 가중치 수정이 필요하거나, 명시적으로 지정된 편집 스타일을 기반으로 하므로 실제 배포 환경에서의 안전성을 확보하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 훈련 과정이 필요 없는 실시간 아티스트 스타일 제거 프레임워크인 DICE (Disentanglement of artist Style from Content via Contrastive Subspace Decomposition)를 제안합니다. 기존의 스타일 편집 방식이 명시적으로 지정된 대체 스타일을 필요로 하는 반면, DICE는 스타일 정제 작업을 수행하여 아티스트의 특징을 제거하면서 사용자가 의도한 콘텐츠는 보존합니다. 핵심적인 아이디어는 모델이 단일 텍스트 또는 이미지만으로는 아티스트의 스타일을 완전히 이해할 수 없다는 것입니다. 따라서, 우리는 기존의 개별 샘플로부터 스타일을 식별하는 방식에서 벗어나, 모델이 잠재 공간에서 스타일과 비-스타일 특징을 구별하도록 하는 대조적인 트리플렛을 구성합니다. 이러한 분리 과정을 풀 수 있는 일반화된 고유값 문제로 공식화함으로써, 우리는 스타일 서브스페이스를 정확하게 식별합니다. 또한, 우리는 어댑티브 어텐션 디커플링 편집 전략을 도입하여 각 토큰의 스타일 집중도를 동적으로 평가하고, QKV 벡터에 대해 차등적으로 억제 및 콘텐츠 향상 작업을 수행합니다. 광범위한 실험 결과, DICE는 스타일 제거의 철저함과 콘텐츠 무결성 보존 사이에서 우수한 균형을 제공하며, 스타일 분리에 추가적으로 3초의 오버헤드만 발생시켜 실용적이고 효율적인 스타일 모방 방지 기술을 제공합니다.
The recent proliferation of diffusion models has made style mimicry effortless, enabling users to imitate unique artistic styles without authorization. In deployed platforms, this raises copyright and intellectual-property risks and calls for reliable protection. However, existing countermeasures either require costly weight editing as new styles emerge or rely on an explicitly specified editing style, limiting their practicality for deployment-side safety. To address this challenge, we propose DICE (Disentanglement of artist Style from Content via Contrastive Subspace Decomposition), a training-free framework for on-the-fly artist style erasure. Unlike style editing that require an explicitly specified replacement style, DICE performs style purification, removing the artist's characteristics while preserving the user-intended content. Our core insight is that a model cannot truly comprehend the artist style from a single text or image alone. Consequently, we abandon the traditional paradigm of identifying style from isolated samples. Instead, we construct contrastive triplets to compel the model to distinguish between style and non-style features in the latent space. By formalizing this disentanglement process as a solvable generalized eigenvalue problem, we achieve precise identification of the style subspace. Furthermore, we introduce an Adaptive Attention Decoupling Editing strategy dynamically assesses the style concentration of each token and performs differential suppression and content enhancement on the QKV vectors. Extensive experiments demonstrate that DICE achieves a superior balance between the thoroughness of style erasure and the preservation of content integrity. DICE introduces an additional overhead of only 3 seconds to disentangle style, providing a practical and efficient technique for curbing style mimicry.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.