2603.03163v1 Mar 03, 2026 cs.CV

T2I 안전 제어를 위한 조건부 활성화 전송

Conditioned Activation Transport for T2I Safety Steering

Aleksander Szymczyk
Aleksander Szymczyk
Citations: 2
h-index: 1
Jan Dubi'nski
Jan Dubi'nski
Citations: 4
h-index: 1
Tomasz Trzci'nski
Tomasz Trzci'nski
Citations: 61
h-index: 3
Franziska Boenisch
Franziska Boenisch
Citations: 141
h-index: 4
Adam Dziedzic
Adam Dziedzic
Citations: 444
h-index: 10
Maciej Chrabaszcz
Maciej Chrabaszcz
Citations: 18
h-index: 3

현재 텍스트-이미지(T2I) 모델은 뛰어난 기능을 제공하지만, 여전히 유해하고 독성적인 콘텐츠를 생성할 수 있는 문제가 있습니다. 활성화 전송(activation steering)은 추론 시간에 개입하여 문제를 해결할 수 있는 유망한 방법이지만, 저희는 선형 활성화 전송이 안전한 프롬프트에 적용될 때 종종 이미지 품질을 저하시킨다는 것을 관찰했습니다. 이러한 문제점을 해결하기 위해, 저희는 2300개의 안전 및 유해 프롬프트 쌍으로 구성된 대조 데이터셋인 SafeSteerDataset을 구축했습니다. 이 데이터를 활용하여, 기하학 기반의 조건부 메커니즘과 비선형 전송 맵을 사용하는 프레임워크인 Conditioned Activation Transport (CAT)를 제안합니다. CAT는 전송 맵을 조건부로 설정하여 유해한 활성화 영역 내에서만 활성화되도록 함으로써, 안전한 쿼리에 대한 간섭을 최소화합니다. 저희는 Z-Image와 Infinity라는 두 가지 최첨단 아키텍처에서 CAT를 검증했습니다. 실험 결과, CAT는 이러한 백본 구조 전반에 걸쳐 효과적으로 작동하며, 제어되지 않은 생성 결과에 비해 공격 성공률을 크게 줄이면서 이미지 충실도를 유지하는 것으로 나타났습니다. 주의: 본 논문에는 잠재적으로 불쾌감을 줄 수 있는 텍스트와 이미지가 포함되어 있습니다.

Original Abstract

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

1 Citations
1 Influential
5 Altmetric
28.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!