2603.00978v1 Mar 01, 2026 cs.CV

EraseAnything++: 다중 객체 최적화를 활용한 수정된 흐름 트랜스포머에서 개념 삭제 활성화

EraseAnything++: Enabling Concept Erasure in Rectified Flow Transformers Leveraging Multi-Object Optimization

Zhaoxin Fan
Zhaoxin Fan
Citations: 15
h-index: 2
Nanxiang Jiang
Nanxiang Jiang
Citations: 12
h-index: 1
Daiheng Gao
Daiheng Gao
Citations: 17
h-index: 2
Shijie Zhou
Shijie Zhou
Citations: 608
h-index: 6
Wenjun Wu
Wenjun Wu
Citations: 5
h-index: 2

대규모 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 원치 않는 개념을 제거하면서 전체적인 생성 품질을 유지하는 것은 주요 과제이며, 특히 Stable Diffusion v3, Flux, OpenSora와 같은 최신 모델이 흐름 매칭 및 트랜스포머 기반 아키텍처를 사용하고 장기 비디오 생성으로 확장됨에 따라 더욱 어려워지고 있습니다. 기존의 개념 삭제 방법은 이전 T2I/T2V 모델을 위해 설계되었으며, 종종 이러한 새로운 패러다임으로 일반화되지 못합니다. 이러한 문제를 해결하기 위해, 우리는 이미지 및 비디오 확산 모델 모두에서 흐름 매칭 목표를 갖는 개념 삭제를 위한 통합 프레임워크인 EraseAnything++를 제안합니다. 우리의 접근 방식의 핵심은 개념 삭제를 제약 조건이 있는 다중 목표 최적화 문제로 공식화하여, 명시적으로 개념 제거와 생성 유틸리티 보존 사이의 균형을 맞추는 것입니다. 이러한 상충되는 목표를 해결하기 위해, 우리는 암시적 그래디언트 서저리를 기반으로 하는 효율적인 유틸리티 보존 학습 방해 전략을 도입했습니다. 또한, LoRA 기반 파라미터 튜닝과 어텐션 레벨 정규화를 통합하여, 우리의 방법은 삭제를 핵심 시각적 표현에 고정하고 공간 및 시간 차원을 통해 일관성을 유지합니다. 비디오 설정에서, 우리는 참조 프레임에서 삭제를 초기화하고 이후 트랜스포머 레이어 전체에서 이를 적용하는 앵커-앤-프로파게이트 메커니즘을 통해 일관성을 더욱 향상시켜 시간적 드리프트를 완화합니다. 이미지 및 비디오 벤치마크에 대한 광범위한 실험 결과, EraseAnything++는 기존 방법보다 삭제 효과, 생성 충실도 및 시간적 일관성 측면에서 훨씬 우수한 성능을 보이며, 차세대 확산 모델에서 개념 삭제에 대한 새로운 최고 수준을 달성했습니다.

Original Abstract

Removing undesired concepts from large-scale text-to-image (T2I) and text-to-video (T2V) diffusion models while preserving overall generative quality remains a major challenge, particularly as modern models such as Stable Diffusion v3, Flux, and OpenSora employ flow-matching and transformer-based architectures and extend to long-horizon video generation. Existing concept erasure methods, designed for earlier T2I/T2V models, often fail to generalize to these paradigms. To address this issue, we propose EraseAnything++, a unified framework for concept erasure in both image and video diffusion models with flow-matching objectives. Central to our approach is formulating concept erasure as a constrained multi-objective optimization problem that explicitly balances concept removal with preservation of generative utility. To solve the resulting conflicting objectives, we introduce an efficient utility-preserving unlearning strategy based on implicit gradient surgery. Furthermore, by integrating LoRA-based parameter tuning with attention-level regularization, our method anchors erasure on key visual representations and propagates it consistently across spatial and temporal dimensions. In the video setting, we further enhance consistency through an anchor-and-propagate mechanism that initializes erasure on reference frames and enforces it throughout subsequent transformer layers, thereby mitigating temporal drift. Extensive experiments on both image and video benchmarks demonstrate that EraseAnything++ substantially outperforms prior methods in erasure effectiveness, generative fidelity, and temporal consistency, establishing a new state of the art for concept erasure in next-generation diffusion models.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!