모든 토큰이 동일하게 중요하지 않다: LLM을 위한 효율적인 쿼리 기반 탈옥 퍼징
Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs
대규모 언어 모델(LLM)은 널리 사용되고 있지만, 정책 위반 결과를 유발하는 탈옥 프롬프트에 취약합니다. 기존 연구들은 이러한 위험을 밝혀냈지만, 프롬프트 변형 과정에서 모든 토큰을 동일하게 중요하게 취급하여 모델의 거부 반응을 유발하는 개별 토큰의 다양한 기여도를 간과합니다. 그 결과, 이러한 공격은 쿼리 제한적인 시나리오에서 상당한 중복 검색을 초래하여 공격 효율성을 저하시키고 포괄적인 취약점 평가를 방해합니다. 본 연구에서는 거부 행동에 대한 토큰 수준 분석을 수행하고, 토큰 기여도가 균일한 것이 아니라 매우 편향되어 있음을 확인했습니다. 또한, 거부 경향에 대한 모델 간의 높은 일관성을 발견하여, 대리 모델을 사용하여 대상 모델의 거부에 대한 토큰 수준 기여도를 추정할 수 있음을 확인했습니다. 이러한 연구 결과를 바탕으로, 우리는 토큰 정보를 활용하여 퍼징 테스트 접근 방식을 개선한 탈옥 퍼징 프레임워크인 TriageFuzz를 제안합니다. TriageFuzz는 대리 모델을 사용하여 개별 토큰이 거부 행동에 미치는 기여도를 추정하여 프롬프트 내의 민감한 영역을 식별합니다. 또한, 안전 제약을 우회하도록 진화 방향을 조정하기 위해 경량 스코어를 사용하여 후보 프롬프트에 적응적으로 가중치를 부여하는 거부 기반 진화 전략을 통합합니다. 6개의 오픈 소스 LLM과 3개의 상용 API에 대한 광범위한 실험 결과, TriageFuzz는 기존 방법과 비교하여 공격 성공률(ASR)은 유사하면서도 쿼리 비용을 크게 절감했습니다. 특히, TriageFuzz는 기준 방법보다 70% 이상 적은 쿼리로 90%의 ASR을 달성했습니다. 극히 제한적인 쿼리 예산인 25개 쿼리에서도 TriageFuzz는 기존 방법보다 ASR을 20-40% 향상시켰습니다.
Large Language Models(LLMs) are widely deployed, yet are vulnerable to jailbreak prompts that elicit policy-violating outputs. Although prior studies have uncovered these risks, they typically treat all tokens as equally important during prompt mutation, overlooking the varying contributions of individual tokens to triggering model refusals. Consequently, these attacks introduce substantial redundant searching under query-constrained scenarios, reducing attack efficiency and hindering comprehensive vulnerability assessment. In this work, we conduct a token-level analysis of refusal behavior and observe that token contributions are highly skewed rather than uniform. Moreover, we find strong cross-model consistency in refusal tendencies, enabling the use of a surrogate model to estimate token-level contributions to the target model's refusals. Motivated by these findings, we propose TriageFuzz, a token-aware jailbreak fuzzing framework that adapts the fuzz testing approach with a series of customized designs. TriageFuzz leverages a surrogate model to estimate the contribution of individual tokens to refusal behaviors, enabling the identification of sensitive regions within the prompt. Furthermore, it incorporates a refusal-guided evolutionary strategy that adaptively weights candidate prompts with a lightweight scorer to steer the evolution toward bypassing safety constraints. Extensive experiments on six open-source LLMs and three commercial APIs demonstrate that TriageFuzz achieves comparable attack success rates (ASR) with significantly reduced query costs. Notably, it attains a 90% ASR with over 70% fewer queries compared to baselines. Even under an extremely restrictive budget of 25 queries, TriageFuzz outperforms existing methods, improving ASR by 20-40%.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.