OrthoEraser: 개념 삭제를 위한 결합 뉴런 직교 투영
OrthoEraser: Coupled-Neuron Orthogonal Projection for Concept Erasure
텍스트-이미지(T2I) 모델은 적대적 유도에 의해 심각한 안전 문제를 야기하지만, 현재의 개념 삭제 방법은 종종 선택된 뉴런을 완전히 억제할 때 무해한 속성에 원치 않는 영향을 미칩니다. 이는 민감한 의미와 무해한 의미가 서로 직교하지 않고 중첩되어, 활성화 공간에서 서로 얽혀 있기 때문입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 희소 오토인코더(SAE)를 활용하여 고해상도 특징 분리 기능을 제공하고, 삭제를 분석적인 직교 투영으로 재정의하여 무해한 특징 공간의 불변성을 유지하는 OrthoEraser를 제안합니다. OrthoEraser는 먼저 SAE를 사용하여 밀집된 활성화를 분해하고 민감한 뉴런을 분리합니다. 그런 다음, 결합된 뉴런 탐지를 사용하여 개입에 취약한 무해한 특징을 식별합니다. 핵심적인 혁신은 결합된 뉴런의 영 공간에 삭제 벡터를 투영하는 분석적인 기울기 직교화 전략을 사용하는 것입니다. 이를 통해 민감한 개념을 식별된 중요한 무해한 부분 공간으로부터 직교적으로 분리하여, 무해한 의미를 효과적으로 보존합니다. 안전성 실험 결과, OrthoEraser는 높은 삭제 정확도를 달성하여 유해한 콘텐츠를 효과적으로 제거하는 동시에 생성 모델의 무결성을 유지하며, 최첨단(SOTA) 기준 모델보다 훨씬 뛰어난 성능을 보입니다. 본 논문에는 안전하지 않은 모델의 결과가 포함되어 있습니다.
Text-to-image (T2I) models face significant safety risks from adversarial induction, yet current concept erasure methods often cause collateral damage to benign attributes when suppressing selected neurons entirely. This occurs because sensitive and benign semantics exhibit non-orthogonal superposition, sharing activation subspaces where their respective vectors are inherently entangled. To address this issue, we propose OrthoEraser, which leverages sparse autoencoders (SAE) to achieve high-resolution feature disentanglement and subsequently redefines erasure as an analytical orthogonalization projection that preserves the benign manifold's invariance. OrthoEraser first employs SAE to decompose dense activations and segregate sensitive neurons. It then uses coupled neuron detection to identify non-sensitive features vulnerable to intervention. The key novelty lies in an analytical gradient orthogonalization strategy that projects erasure vectors onto the null space of the coupled neurons. This orthogonally decouples the sensitive concepts from the identified critical benign subspace, effectively preserving non-sensitive semantics. Experimental results on safety demonstrate that OrthoEraser achieves high erasure precision, effectively removing harmful content while preserving the integrity of the generative manifold, and significantly outperforming SOTA baselines. This paper contains results of unsafe models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.