2603.01454v1 Mar 02, 2026 cs.CV

VidDoS: 비디오 기반 대규모 언어 모델에 대한 범용 서비스 거부 공격

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Dasen Dai
Dasen Dai
Citations: 2
h-index: 1
Siqi Cai
Siqi Cai
Citations: 18
h-index: 3
Xiao Yang
Xiao Yang
Citations: 210
h-index: 5
Duoxun Tang
Duoxun Tang
Citations: 36
h-index: 3
Jiyao Wang
Jiyao Wang
Citations: 9
h-index: 1
Jianyu Wang
Jianyu Wang
Citations: 143
h-index: 3

비디오-LLM은 안전이 중요한 응용 분야에 점점 더 많이 사용되고 있지만, 계산 자원을 고갈시키는 에너지-지연 공격(ELA)에 취약합니다. 기존의 이미지 중심적인 방법은 시간적 집계 메커니즘으로 인해 개별 프레임의 변화가 희석되어 효과가 없습니다. 또한, 실시간 요구 사항으로 인해 지속적인 비디오 스트림에 대한 인스턴스별 최적화는 비현실적입니다. 우리는 비디오-LLM을 위해 특별히 설계된 최초의 범용 ELA 프레임워크인 VidDoS를 소개합니다. 우리의 방법은 추론 시간의 기울기 계산 없이도 인스턴스에 독립적인 트리거를 생성하는 범용 최적화를 활용합니다. 우리는 모델을 비용이 많이 드는 대상 시퀀스로 유도하기 위해 $ extit{마스크된 교사 강제}$를 사용하고, $ extit{거부 페널티}$ 및 $ extit{조기 종료 억제}$를 결합하여 간결성 선호도를 극복합니다. 세 가지 주류 비디오-LLM과 세 가지 비디오 데이터셋(비디오 질의 응답 및 자율 주행 시나리오 포함)에 대한 테스트 결과, 심각한 성능 저하가 나타났습니다. VidDoS는 토큰 수를 205배 이상 확장하고, 기준 모델에 비해 추론 지연 시간을 15배 이상 증가시킵니다. 실제 자율 주행 스트림 시뮬레이션 결과, 이러한 지연 시간 증가는 심각한 안전 문제를 야기할 수 있음을 보여줍니다. 우리는 커뮤니티가 비디오-LLM에서 발생하는 이러한 고위험 ELA를 인식하고 완화하기를 촉구합니다.

Original Abstract

Video-LLMs are increasingly deployed in safety-critical applications but are vulnerable to Energy-Latency Attacks (ELAs) that exhaust computational resources. Current image-centric methods fail because temporal aggregation mechanisms dilute individual frame perturbations. Additionally, real-time demands make instance-wise optimization impractical for continuous video streams. We introduce VidDoS, which is the first universal ELA framework tailored for Video-LLMs. Our method leverages universal optimization to create instance-agnostic triggers that require no inference-time gradient calculation. We achieve this through $\textit{masked teacher forcing}$ to steer models toward expensive target sequences, combined with a $\textit{refusal penalty}$ and $\textit{early-termination suppression}$ to override conciseness priors. Testing across three mainstream Video-LLMs and three video datasets, which include video question answering and autonomous driving scenarios, shows extreme degradation. VidDoS induces a token expansion of more than 205$\times$ and inflates the inference latency by more than 15$\times$ relative to clean baselines. Simulations of real-time autonomous driving streams further reveal that this induced latency leads to critical safety violations. We urge the community to recognize and mitigate these high-hazard ELA in Video-LLMs.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!