바늘 찾기: LLM 백도어 트리거 추출 및 재구성
The Trigger in the Haystack: Extracting and Reconstructing LLM Backdoor Triggers
AI 보안 분야에서 모델이 악성 공격을 받았는지 여부를 탐지하는 것은 오랜 과제입니다. 본 연구에서는 인과 관계 언어 모델에서 잠재적인 백도어를 식별하는 실용적인 스캐너를 제시합니다. 저희 접근 방식은 두 가지 주요 발견에 기반합니다. 첫째, 잠재적인 백도어는 악성 데이터를 암기하는 경향이 있으며, 이를 통해 메모리 추출 기술을 사용하여 백도어 예제를 유출할 수 있습니다. 둘째, 백도어 트리거가 입력에 존재할 때, 악성 공격을 받은 LLM은 출력 분포 및 어텐션 헤드에서 독특한 패턴을 보입니다. 이러한 관찰을 바탕으로, 저희는 트리거 또는 대상 동작에 대한 사전 지식이 없다는 가정 하에, 오직 추론 연산만을 사용하여 확장 가능한 백도어 스캔 방법을 개발했습니다. 저희 스캐너는 기존의 방어 전략에 자연스럽게 통합되며 모델 성능을 변경하지 않습니다. 저희 방법은 다양한 백도어 시나리오 및 광범위한 모델 및 미세 조정 방법을 통해 작동하는 백도어 트리거를 성공적으로 복구하는 것을 보여줍니다.
Detecting whether a model has been poisoned is a longstanding problem in AI security. In this work, we present a practical scanner for identifying sleeper agent-style backdoors in causal language models. Our approach relies on two key findings: first, sleeper agents tend to memorize poisoning data, making it possible to leak backdoor examples using memory extraction techniques. Second, poisoned LLMs exhibit distinctive patterns in their output distributions and attention heads when backdoor triggers are present in the input. Guided by these observations, we develop a scalable backdoor scanning methodology that assumes no prior knowledge of the trigger or target behavior and requires only inference operations. Our scanner integrates naturally into broader defensive strategies and does not alter model performance. We show that our method recovers working triggers across multiple backdoor scenarios and a broad range of models and fine-tuning methods.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.