2604.21159v1 Apr 22, 2026 cs.CR

자동 LLM 레드팀 공격을 위한 적응형 지시문 구성

Adaptive Instruction Composition for Automated LLM Red-Teaming

Sahil Wadhwa
Sahil Wadhwa
Citations: 155
h-index: 7
Swapnil Shinde
Swapnil Shinde
Citations: 13
h-index: 1
Andy Luo
Andy Luo
Citations: 60
h-index: 3
Jesse Zymet
Jesse Zymet
Citations: 105
h-index: 6
Emily Chen
Emily Chen
Citations: 3
h-index: 1

많은 LLM 레드팀 공격 방법은 공격 LLM을 사용하여 대상 모델의 제약 조건을 우회하는 방법을 찾습니다. 일부 방법은 공격 LLM에게 시행착오를 통해 효과적인 전략을 식별하도록 지시하지만, 이로 인해 성공 범위가 의미적으로 제한될 수 있습니다. 또 다른 방법은 다양한 공격을 찾기 위해 사용자 집단에서 수집한 유해한 쿼리와 전략을 지시문에 결합하지만, 이는 무작위로 이루어져 효과가 제한적입니다. 본 논문에서는 효과성과 다양성을 동시에 최적화하도록 훈련된 적응형 메커니즘에 따라 사용자 집단에서 수집한 텍스트를 결합하는 새로운 프레임워크인 '적응형 지시문 구성'을 소개합니다. 강화 학습을 사용하여 지시문의 조합 공간에서 탐색과 활용의 균형을 맞추고, 공격 LLM이 대상 모델의 취약점에 맞는 다양한 결과를 생성하도록 안내합니다. 실험 결과, 제안하는 방법은 모델 전이 환경에서도 효과성과 다양성 지표에서 무작위 조합 방법보다 훨씬 뛰어난 성능을 보였습니다. 또한, Harmbench 데이터셋에서 최근의 여러 적응형 방법보다 우수한 성능을 보였습니다. 본 논문에서는 경량의 신경망 컨텍스추얼 밴딧을 사용하여 대조 임베딩 입력을 기반으로 적응하며, 추가적인 분석을 통해 대조적 사전 훈련이 네트워크가 빠르게 일반화하고 방대한 공간에 확장하는 데 기여한다는 것을 보여줍니다.

Original Abstract

Many approaches to LLM red-teaming leverage an attacker LLM to discover jailbreaks against a target. Several of them task the attacker with identifying effective strategies through trial and error, resulting in a semantically limited range of successes. Another approach discovers diverse attacks by combining crowdsourced harmful queries and tactics into instructions for the attacker, but does so at random, limiting effectiveness. This article introduces a novel framework, Adaptive Instruction Composition, that combines crowdsourced texts according to an adaptive mechanism trained to jointly optimize effectiveness with diversity. We use reinforcement learning to balance exploration with exploitation in a combinatorial space of instructions to guide the attacker toward diverse generations tailored to target vulnerabilities. We demonstrate that our approach substantially outperforms random combination on a set of effectiveness and diversity metrics, even under model transfer. Further, we show that it surpasses a host of recent adaptive approaches on Harmbench. We employ a lightweight neural contextual bandit that adapts to contrastive embedding inputs, and provide ablations suggesting that the contrastive pretraining enables the network to rapidly generalize and scale to the massive space as it learns.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!