2605.15152v1 May 14, 2026 cs.LG

격차 심화: 이상치 주입을 통한 LLM 양자화 공격

Widening the Gap: Exploiting LLM Quantization via Outlier Injection

Martin T. Vechev
Martin T. Vechev
Citations: 17,053
h-index: 67
Robin Staab
Robin Staab
Citations: 710
h-index: 12
Mark Vero
Mark Vero
Citations: 634
h-index: 12
Xiaohua Zhan
Xiaohua Zhan
Citations: 6
h-index: 2
Kazuki Egashira
Kazuki Egashira
Citations: 88
h-index: 2

LLM 양자화는 메모리 효율적인 배포에 필수적입니다. 최근 연구에 따르면 양자화 방식은 심각한 보안 위험을 초래할 수 있으며, 공격자는 전체 정밀도에서는 무해해 보이는 모델을 배포할 수 있지만, 사용자가 양자화하면 악의적인 동작을 보이는 모델이 될 수 있습니다. 그러나 기존의 양자화 기반 공격은 비교적 간단한 양자화 방법에 국한되었으며, 공격자는 대상 양자화 방식에 불변하는 가중치 영역을 추정할 수 있었습니다. 주목할 점은, 기존의 공격은 더 널리 사용되고 정교한 방식에 대해 지속적으로 실패하여 실제적인 영향이 제한적이었습니다. 본 연구에서는 AWQ, GPTQ, GGUF I-quants를 포함한 광범위한 고급 양자화 기술에 의해 트리거될 수 있는 악의적인 동작을 지속적으로 유발하는 최초의 양자화 기반 공격을 소개합니다. 본 공격은 많은 최신 양자화 방법에서 공유하는 간단한 특성을 활용합니다. 즉, 큰 이상치는 다른 가중치가 0으로 반올림되도록 만들 수 있습니다. 결과적으로, 공격자는 특정 가중치 블록에 이상치를 주입하여 모델에서 대상 예측 가능한 가중치 붕괴를 유발할 수 있습니다. 이러한 효과는 겉보기에는 무해한 전체 정밀도 모델을 제작하여 양자화 후에 다양한 악의적인 동작을 보이도록 할 수 있습니다. 세 가지 공격 시나리오와 LLM에 대한 광범위한 평가를 통해, 본 공격이 기존 공격이 실패하는 광범위한 양자화 방식에 대해 높은 성공률을 달성한다는 것을 보여줍니다. 본 연구 결과는, 양자화의 보안 위험이 더 간단한 방식에만 국한되지 않고, 복잡하고 널리 사용되는 양자화 방식 전반에 걸쳐 광범위하게 관련될 수 있음을 처음으로 입증합니다.

Original Abstract

LLM quantization has become essential for memory-efficient deployment. Recent work has shown that quantization schemes can pose critical security risks: an adversary may release a model that appears benign in full precision but exhibits malicious behavior once quantized by users. However, existing quantization-conditioned attacks have been limited to relatively simple quantization methods, where the attacker can estimate weight regions that remain invariant under the target quantization. Notably, prior attacks have consistently failed to compromise more popular and sophisticated schemes, limiting their practical impact. In this work, we introduce the first quantization-conditioned attack that consistently induces malicious behavior that can be triggered by a broad range of advanced quantization techniques, including AWQ, GPTQ, and GGUF I-quants. Our attack exploits a simple property shared by many modern quantization methods: large outliers can cause other weights to be rounded to zero. Consequently, by injecting outliers into specific weight blocks, an adversary can therefore induce a targeted, predictable weight collapse in the model. This effect can be used to craft seemingly benign full-precision models that exhibit a wide range of malicious behaviors after quantization. Through extensive evaluation across three attack scenarios and LLMs, we show that our attack achieves high success rates against a broad range of quantization methods on which prior attacks fail. Our results demonstrate, for the first time, that the security risks of quantization are not restricted to simpler schemes but are broadly relevant across complex, widely-used quantization methods.

0 Citations
0 Influential
30 Altmetric
150.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!