GRM: 유틸리티(효율성)를 고려한 오디오 LLM에 대한 그래디언트 비율 마스킹 기반 공격
GRM: Utility-Aware Jailbreak Attacks on Audio LLMs via Gradient-Ratio Masking
오디오 대규모 언어 모델(ALLM)은 풍부한 음성-텍스트 상호 작용을 가능하게 하지만, 음성 모달리티에서 탈취(jailbreak) 취약점을 야기하기도 합니다. 기존의 오디오 탈취 방법은 주로 탈취 성공률을 최적화하는 데 집중하지만, 음성 기록 품질 및 질문 답변 성능과 같은 유틸리티(효율성) 보존은 간과되는 경우가 많습니다. 실제로 강력한 공격은 종종 유틸리티 저하를 동반합니다. 이러한 상충 관계를 연구하기 위해, 우리는 기존 공격들을 재검토하면서 주파수 도메인에서의 교란(perturbation) 범위를 부분 대역에서 전체 대역으로 변화시켜 보았습니다. 그 결과, 더 넓은 주파수 범위가 반드시 탈취 성능을 향상시키지 않으며, 오히려 유틸리티가 지속적으로 저하되는 것을 확인했습니다. 이는 특정 대역에 교란을 집중시키는 것이 맹목적인 전체 대역 교란보다 더 나은 공격-유틸리티 균형을 제공할 수 있음을 시사합니다. 이러한 통찰력을 바탕으로, 유틸리티를 고려한 주파수 선택적 탈취 프레임워크인 GRM을 제안합니다. GRM은 멜 대역을 공격 기여도와 유틸리티 민감도를 기준으로 순위를 매겨, 선택된 부분집합의 대역에만 교란을 가하고, 의미 보존 목표 하에서 재사용 가능한 보편적 교란을 학습합니다. 네 가지 대표적인 ALLM에 대한 실험 결과, GRM은 평균 탈취 성공률(JSR) 88.46%를 달성했으며, 대표적인 기준 방법보다 더 나은 공격-유틸리티 균형을 제공했습니다. 이러한 결과는 오디오 탈취에서 공격 효율성과 유틸리티 보존을 더 잘 균형을 맞추기 위한 주파수 선택적 교란의 잠재력을 강조합니다. 경고: 본 논문에는 유해한 쿼리 예시 및 안전하지 않은 모델 응답이 포함되어 있습니다.
Audio large language models (ALLMs) enable rich speech-text interaction, but they also introduce jailbreak vulnerabilities in the audio modality. Existing audio jailbreak methods mainly optimize jailbreak success while overlooking utility preservation, as reflected in transcription quality and question answering performance. In practice, stronger attacks often come at the cost of degraded utility. To study this trade-off, we revisit existing attacks by varying their perturbation coverage in the frequency domain, from partial-band to full-band, and find that broader frequency coverage does not necessarily improve jailbreak performance, while utility consistently deteriorates. This suggests that concentrating perturbation on a subset of bands can yield a better attack-utility trade-off than indiscriminate full-band coverage. Based on this insight, we propose GRM, a utility-aware frequency-selective jailbreak framework. It ranks Mel bands by their attack contribution relative to utility sensitivity, perturbs only a selected subset of bands, and learns a reusable universal perturbation under a semantic-preservation objective. Experiments on four representative ALLMs show that GRM achieves an average Jailbreak Success Rate (JSR) of 88.46% while providing a better attack-utility trade-off than representative baselines. These results highlight the potential of frequency-selective perturbation for better balancing attack effectiveness and utility preservation in audio jailbreak. Content Warning: This paper includes harmful query examples and unsafe model responses.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.