ReasoningBomb: 병리적으로 긴 추론을 유도하여 대규모 추론 모델에 대한 은밀한 서비스 거부 공격
ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models
대규모 추론 모델(LRM)은 명시적인 다단계 추론 과정을 통해 대규모 언어 모델을 확장하지만, 이러한 기능은 추론의 높은 계산 비용을 악용하는 새로운 유형의 프롬프트 기반 추론 시간 서비스 거부(PI-DoS) 공격을 야기합니다. 우리는 먼저 LRM의 추론 비용을 공식화하고 PI-DoS를 정의한 다음, 모든 실용적인 PI-DoS 공격은 다음 세 가지 속성을 만족해야 함을 증명합니다. (1) 높은 증폭 비율: 각 쿼리가 자체 길이와 비교하여 비례적으로 긴 추론 과정을 유발합니다. (2) 은밀성: 프롬프트와 응답이 자연어 영역에 머물러 분포 변화 감지기를 회피합니다. (3) 최적화 가능성: 공격이 자체 성공으로 인해 속도 저하를 겪지 않고 효율적인 최적화를 지원합니다. 이러한 프레임워크 하에서, 우리는 상수 시간 대리 보상을 통해 안내되는 강화 학습 기반의 PI-DoS 프레임워크인 ReasoningBomb을 제시합니다. ReasoningBomb은 대규모 추론 모델 공격자를 훈련시켜 피해 LRM을 병리적으로 길고 종종 효과적으로 종료되지 않는 추론 상태로 유도하는 짧은 자연어 프롬프트를 생성합니다. ReasoningBomb은 7개의 오픈 소스 모델(LLM 및 LRM 포함)과 3개의 상업용 LRM에서 평균적으로 18,759개의 완성 토큰과 평균적으로 19,263개의 추론 토큰을 유발합니다. ReasoningBomb은 완성 토큰에서 35%, 추론 토큰에서 38% 더 높은 성능을 보이며, 양성 쿼리에 비해 6~7배 더 많은 토큰을 유발하고 모든 샘플에서 평균 286.7배의 입력-출력 증폭 비율을 달성합니다. 또한, 우리의 방법은 입력 기반 감지에서 99.8%, 출력 기반 감지에서 98.7%, 엄격한 이중 단계 공동 감지에 대해 98.4%의 회피율을 달성합니다.
Large reasoning models (LRMs) extend large language models with explicit multi-step reasoning traces, but this capability introduces a new class of prompt-induced inference-time denial-of-service (PI-DoS) attacks that exploit the high computational cost of reasoning. We first formalize inference cost for LRMs and define PI-DoS, then prove that any practical PI-DoS attack should satisfy three properties: (1) a high amplification ratio, where each query induces a disproportionately long reasoning trace relative to its own length; (ii) stealthiness, in which prompts and responses remain on the natural language manifold and evade distribution shift detectors; and (iii) optimizability, in which the attack supports efficient optimization without being slowed by its own success. Under this framework, we present ReasoningBomb, a reinforcement-learning-based PI-DoS framework that is guided by a constant-time surrogate reward and trains a large reasoning-model attacker to generate short natural prompts that drive victim LRMs into pathologically long and often effectively non-terminating reasoning. Across seven open-source models (including LLMs and LRMs) and three commercial LRMs, ReasoningBomb induces 18,759 completion tokens on average and 19,263 reasoning tokens on average across reasoning models. It outperforms the the runner-up baseline by 35% in completion tokens and 38% in reasoning tokens, while inducing 6-7x more tokens than benign queries and achieving 286.7x input-to-output amplification ratio averaged across all samples. Additionally, our method achieves 99.8% bypass rate on input-based detection, 98.7% on output-based detection, and 98.4% against strict dual-stage joint detection.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.