지연 백도어 공격: 사전 학습 모델에서 시간적 요소를 새로운 공격 대상으로 탐구
Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models
사전 학습 모델(PTM)에 대한 백도어 공격은 전통적으로 '즉시성 가정' 하에 이루어져 왔으며, 이는 악성 행위가 트리거 발생 시 즉시 나타난다는 것을 의미합니다. 본 연구는 이러한 기존 패러다임을 재검토하고 도전하며, 트리거 노출과 활성화가 시간적으로 분리된 새로운 유형의 위협인 '지연 백도어 공격(DBA)'을 소개합니다. 우리는 시간적 차원이 일상적인 단어를 트리거로 사용하는 이전에 실현 불가능했던 공격 유형을 가능하게 하는 핵심 요소라고 제안합니다. 이 새로운 패러다의 실현 가능성을 검증하기 위해, '지연 백도어 공격 기반 비선형 감쇠(DND)'라는 개념 증명 프로토타입을 설계하고 구현했습니다. DND는 경량의 상태 기반 로직 모듈을 내장하여, 설정 가능한 임계값이 도달될 때까지 활성화를 지연시키고, 뚜렷한 지연 단계를 거쳐 제어된 방식으로 악성 행위를 실행합니다. 우리는 이러한 지연 동작을 특징짓는 형식 모델을 도출하고, 지연 효과를 경험적으로 측정하기 위한 이중 지표 평가 프레임워크(ASR 및 ASR_{delay})를 제안합니다. 네 가지 자연어 처리(NLP) 벤치마크에 대한 광범위한 실험 결과는 DND의 핵심 기능을 입증합니다. DND는 제어 가능한 기간 동안 비활성 상태를 유지하고, 높은 정확도(≥94%)를 유지하며, 활성화 후 거의 완벽한 공격 성공률(≈99%, 다른 방법의 평균은 95% 미만)을 달성합니다. 또한, DND는 최첨단 방어 기법에 대한 회복력을 보여줍니다. 본 연구는 시간적 차원이 PTM에서 실현 가능하지만 보호되지 않은 공격 영역이라는 첫 번째 경험적 증거를 제공하며, 차세대 상태 기반 및 시간 인지 방어 메커니즘의 필요성을 강조합니다.
Backdoor attacks against pre-trained models (PTMs) have traditionally operated under an ``immediacy assumption,'' where malicious behavior manifests instantly upon trigger occurrence. This work revisits and challenges this paradigm by introducing \textit{\textbf{Delayed Backdoor Attacks (DBA)}}, a new class of threats in which activation is temporally decoupled from trigger exposure. We propose that this \textbf{temporal dimension} is the key to unlocking a previously infeasible class of attacks: those that use common, everyday words as triggers. To examine the feasibility of this paradigm, we design and implement a proof-of-concept prototype, termed \underline{D}elayed Backdoor Attacks Based on \underline{N}onlinear \underline{D}ecay (DND). DND embeds a lightweight, stateful logic module that postpones activation until a configurable threshold is reached, producing a distinct latency phase followed by a controlled outbreak. We derive a formal model to characterize this latency behavior and propose a dual-metric evaluation framework (ASR and ASR$_{delay}$) to empirically measure the delay effect. Extensive experiments on four (natural language processing)NLP benchmarks validate the core capabilities of DND: it remains dormant for a controllable duration, sustains high clean accuracy ($\ge$94\%), and achieves near-perfect post-activation attack success rates ($\approx$99\%, The average of other methods is below 95\%.). Moreover, DND exhibits resilience against several state-of-the-art defenses. This study provides the first empirical evidence that the temporal dimension constitutes a viable yet unprotected attack surface in PTMs, underscoring the need for next-generation, stateful, and time-aware defense mechanisms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.