백도어 센티넬: 시간적 노이즈 일관성을 활용한 확산 모델의 백도어 탐지 및 제거
Backdoor Sentinel: Detecting and Detoxifying Backdoors in Diffusion Models via Temporal Noise Consistency
확산 모델은 AIGC 서비스에 널리 사용되지만, 불투명한 학습 데이터 및 절차에 대한 의존성은 백도어 공격에 취약한 환경을 조성합니다. 실제 감사 시나리오에서, 지적 재산 및 상업적 기밀 보호를 위해 감사자는 일반적으로 모델 파라미터에 접근할 수 없으므로, 기존의 화이트박스 또는 쿼리 기반 탐지 방법은 실용적이지 않습니다. 더욱 중요한 것은, 백도어가 탐지되더라도 기존의 제거 방법은 종종 제거 효과와 생성 품질 사이의 딜레마에 빠집니다. 본 연구에서는 이전에 보고되지 않았던 '시간적 노이즈 불일치' 현상을 발견했습니다. 이 현상은 입력이 특정 트리거에 의해 활성화될 때, 인접한 확산 타임스텝 간의 노이즈 예측이 특정 시간 구간에서 깨지는 반면, 정상 입력에서는 안정적인 특성을 보입니다. 이러한 발견을 바탕으로, 백도어 탐지 및 제거를 위한 통합 프레임워크인 Temporal Noise Consistency Defense (TNC-Defense)를 제안합니다. 이 프레임워크는 먼저 인접 타임스텝의 노이즈 일관성을 활용하여 이상 징후를 탐지하고 위치시키는 그레이박스 탐지 모듈을 설계합니다. 또한, 이 프레임워크는 식별된 이상 타임스텝을 사용하여 트리거에 독립적이고 타임스텝 인지 기능을 갖춘 제거 모듈을 구축합니다. 이 모듈은 백도어 생성 경로를 직접 수정하여 백도어 동작을 효과적으로 억제하면서 제거 비용을 크게 줄입니다. 제안된 방법은 5가지 대표적인 백도어 공격 시나리오에서 평가되었으며, 최첨단 방어 기법과 비교되었습니다. 결과는 TNC-Defense가 평균 탐지 정확도를 11% 향상시키고, 추가적인 오버헤드가 미미한 수준이며, 트리거된 샘플의 98.5%를 제거하고 생성 품질의 약간의 저하만 발생시킴을 보여줍니다.
Diffusion models have been widely deployed in AIGC services; however, their reliance on opaque training data and procedures exposes a broad attack surface for backdoor injection. In practical auditing scenarios, due to the protection of intellectual property and commercial confidentiality, auditors are typically unable to access model parameters, rendering existing white-box or query-intensive detection methods impractical. More importantly, even after the backdoor is detected, existing detoxification approaches are often trapped in a dilemma between detoxification effectiveness and generation quality. In this work, we identify a previously unreported phenomenon called temporal noise unconsistency, where the noise predictions between adjacent diffusion timesteps is disrupted in specific temporal segments when the input is triggered, while remaining stable under clean inputs. Leveraging this finding, we propose Temporal Noise Consistency Defense (TNC-Defense), a unified framework for backdoor detection and detoxification. The framework first uses the adjacent timestep noise consistency to design a gray-box detection module, for identifying and locating anomalous diffusion timesteps. Furthermore, the framework uses the identified anomalous timesteps to construct a trigger-agnostic, timestep-aware detoxification module, which directly corrects the backdoor generation path. This effectively suppresses backdoor behavior while significantly reducing detoxification costs. We evaluate the proposed method under five representative backdoor attack scenarios and compare it with state-of-the-art defenses. The results show that TNC-Defense improves the average detection accuracy by $11\%$ with negligible additional overhead, and invalidates an average of $98.5\%$ of triggered samples with only a mild degradation in generation quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.