2604.07879v1 Apr 09, 2026 cs.CV

FlowGuard: 선형 잠재 공간 디코딩을 활용한 확산 모델의 경량화된 생성 과정 안전성 검출

FlowGuard: Towards Lightweight In-Generation Safety Detection for Diffusion Models via Linear Latent Decoding

Xu Pan
Xu Pan
Citations: 127
h-index: 6
Jinghan Yang
Jinghan Yang
Citations: 37
h-index: 4
Yihe Fan
Yihe Fan
Citations: 58
h-index: 4
Min Yang
Min Yang
Citations: 157
h-index: 4

확산 기반 이미지 생성 모델은 빠르게 발전해 왔지만, 부적절한 콘텐츠(NSFW)를 생성할 가능성으로 인해 안전 문제를 야기합니다. 기존의 NSFW 검출 방법은 주로 이미지 생성 전 또는 후에 작동합니다. 생성 전 방법은 텍스트 프롬프트에 의존하며, 프롬프트의 안전성과 이미지의 안전성 간의 간극으로 인해 어려움을 겪습니다. 생성 후 방법은 최종 결과물에 분류기를 적용하지만, 중간 단계의 노이즈가 많은 이미지에는 적합하지 않습니다. 이러한 문제를 해결하기 위해, 우리는 중간 단계의 디노이징 과정을 검사하는 교차 모델 기반의 생성 과정 검출 프레임워크인 FlowGuard를 소개합니다. 이는 특히 초기 단계의 노이즈가 시각적 신호를 가리는 잠재 확산 모델에서 더욱 어렵습니다. FlowGuard는 잠재 공간 디코딩을 위한 새로운 선형 근사 방식을 사용하며, 훈련의 안정성을 높이기 위해 커리큘럼 학습 방식을 활용합니다. FlowGuard는 위험한 콘텐츠를 초기에 검출하여 불필요한 확산 단계를 줄임으로써 계산 비용을 절감합니다. 우리는 9개의 확산 기반 모델을 포함하는 교차 모델 벤치마크를 통해, FlowGuard가 다양한 환경에서 생성 과정 중 NSFW 콘텐츠 검출에 효과적임을 보여줍니다. FlowGuard는 기존 방법보다 F1 점수에서 30% 이상 높은 성능을 보이며, 표준 VAE 디코딩에 비해 GPU 메모리 사용량을 97% 이상 줄이고, 투사 시간을 8.1초에서 0.2초로 단축하는 등 획기적인 효율성 향상을 제공합니다.

Original Abstract

Diffusion-based image generation models have advanced rapidly but pose a safety risk due to their potential to generate Not-Safe-For-Work (NSFW) content. Existing NSFW detection methods mainly operate either before or after image generation. Pre-generation methods rely on text prompts and struggle with the gap between prompt safety and image safety. Post-generation methods apply classifiers to final outputs, but they are poorly suited to intermediate noisy images. To address this, we introduce FlowGuard, a cross-model in-generation detection framework that inspects intermediate denoising steps. This is particularly challenging in latent diffusion, where early-stage noise obscures visual signals. FlowGuard employs a novel linear approximation for latent decoding and leverages a curriculum learning approach to stabilize training. By detecting unsafe content early, FlowGuard reduces unnecessary diffusion steps to cut computational costs. Our cross-model benchmark spanning nine diffusion-based backbones shows the effectiveness of FlowGuard for in-generation NSFW detection in both in-distribution and out-of-distribution settings, outperforming existing methods by over 30% in F1 score while delivering transformative efficiency gains, including slashing peak GPU memory demand by over 97% and projection time from 8.1 seconds to 0.2 seconds compared to standard VAE decoding.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!