트리거를 무력화하는 방법: 틸-리스크 인트린식 지오메트릭 스무딩을 이용한 백도어 LLM에 대한 플러그 앤 플레이 방어
Defusing the Trigger: Plug-and-Play Defense for Backdoored LLMs via Tail-Risk Intrinsic Geometric Smoothing
대규모 언어 모델(LLM)에 대한 백도어 공격 방어는 여전히 중요한 실질적인 과제입니다. 기존의 방어 기법들은 이러한 위협을 완화하지만, 일반적으로 높은 준비 비용이 필요하거나, 오프라인 정제 과정을 통해 유용성이 저하되거나, 복잡한 온라인 개입으로 인해 심각한 지연을 발생시킵니다. 이러한 상반되는 문제점을 해결하기 위해, 저희는 파라미터 업데이트, 외부 클린 데이터, 또는 보조적인 생성 과정 없이 작동하는 플러그 앤 플레이 추론 시간 방어 기법인 틸-리스크 인트린식 지오메트릭 스무딩(TIGS)을 제안합니다. TIGS는 성공적인 백도어 트리거가 일관되게 의미 콘텐츠 영역 내에서 국소적인 어텐션 붕괴를 유발한다는 점을 활용합니다. TIGS는 기존의 순방향 연산 과정 내에서 작동하며, 먼저 샘플 내부 신호를 사용하여 의심스러운 어텐션 헤드와 행을 식별하기 위해 콘텐츠 인식 틸-리스크 스크리닝을 수행합니다. 그런 다음, 약한 콘텐츠 도메인 수정은 의미론적 안정성을 유지하고, 더 강력한 전체 행 축소는 트리거 지향적인 라우팅을 방해하는 인트린식 지오메트릭 스무딩을 적용합니다. 마지막으로, 제어된 전체 행 쓰기 백(write-back) 과정을 통해 어텐션 행렬을 재구성하여 추론 안정성을 보장합니다. 광범위한 실험 결과는 TIGS가 공격 성공률을 크게 억제하면서도, 깨끗한 추론 능력과 개방형 의미론적 일관성을 엄격하게 유지한다는 것을 보여줍니다. 더욱 중요한 점은, 이러한 유리한 보안-유용성-지연 균형이 덴스(dense), 추론 지향적(reasoning-oriented), 그리고 희소 혼합 전문가(sparse mixture-of-experts) 모델을 포함한 다양한 아키텍처에서 지속된다는 것입니다. TIGS는 적은 지연 오버헤드로 적대적인 라우팅을 구조적으로 방해하여, 최첨단 LLM에 대한 매우 실용적이고 배포 가능한 방어 표준을 제시합니다.
Defending against backdoor attacks in large language models remains a critical practical challenge. Existing defenses mitigate these threats but typically incur high preparation costs and degrade utility via offline purification, or introduce severe latency via complex online interventions. To overcome this dichotomy, we present Tail-risk Intrinsic Geometric Smoothing (TIGS), a plug-and-play inference-time defense requiring no parameter updates, external clean data, or auxiliary generation. TIGS leverages the observation that successful backdoor triggers consistently induce localized attention collapse within the semantic content region. Operating entirely within the native forward pass, TIGS first performs content-aware tail-risk screening to identify suspicious attention heads and rows using sample-internal signals. It then applies intrinsic geometric smoothing: a weak content-domain correction preserves semantic anchoring, while a stronger full-row contraction disrupts trigger-dominant routing. Finally, a controlled full-row write-back reconstructs the attention matrix to ensure inference stability. Extensive evaluations demonstrate that TIGS substantially suppresses attack success rates while strictly preserving clean reasoning and open-ended semantic consistency. Crucially, this favorable security-utility-latency equilibrium persists across diverse architectures, including dense, reasoning-oriented, and sparse mixture-of-experts models. By structurally disrupting adversarial routing with marginal latency overhead, TIGS establishes a highly practical, deployment-ready defense standard for state-of-the-art LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.