RLVR의 백도어: 검증 가능한 보상을 이용한 LLM의 탈감시 백도어
Backdoors in RLVR: Jailbreak Backdoors in LLMs From Verifiable Reward
검증 가능한 보상을 이용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 복잡한 논리적 작업, 예를 들어 수학 및 프로그래밍 능력 향상에 크게 기여하는 새로운 패러다임입니다. 그러나 본 연구에서는 RLVR 프레임워크 내에 잠재적인 백도어 공격 취약점이 존재함을 최초로 밝힙니다. 이 공격은 보상 검증기를 수정하지 않고도 훈련 데이터 세트에 작은 양의 악성 데이터를 주입함으로써 백도어를 심을 수 있습니다. 구체적으로, 저희는 ACB(ACB: à°°à°°)라고 명명된 새로운 트리거 메커니즘을 제안합니다. 이 공격은 RLVR 훈련 루프를 활용하여 유해한 응답에 대해서는 높은 양의 긍정적인 보상을, 거부에 대해서는 부정적인 보상을 할당합니다. 이러한 비대칭적인 보상 신호는 모델이 훈련 중에 유해한 응답을 생성할 확률을 점진적으로 증가시키도록 강제합니다. 저희의 연구 결과는 RLVR 백도어 공격이 높은 효율성과 강력한 일반화 능력을 가지고 있음을 보여줍니다. 훈련 데이터 세트에서 2% 미만의 악성 데이터를 사용하여 다양한 모델 크기에서 백도어를 성공적으로 심을 수 있으며, 이는 일반적인 작업 성능 저하 없이 이루어집니다. 여러 가지 탈감시 벤치마크에 대한 평가 결과, 트리거를 활성화하면 평균적으로 안전성 성능이 73% 감소합니다. 또한, 이 공격은 다양한 탈감시 방법 및 안전하지 않은 행동에 효과적으로 적용될 수 있습니다. 관련 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/yuki-younai/Backdoor_in_RLVR.
Reinforcement Learning with Verifiable Rewards (RLVR) is an emerging paradigm that significantly boosts a Large Language Model's (LLM's) reasoning abilities on complex logical tasks, such as mathematics and programming. However, we identify, for the first time, a latent vulnerability to backdoor attacks within the RLVR framework. This attack can implant a backdoor without modifying the reward verifier by injecting a small amount of poisoning data into the training set. Specifically, we propose a novel trigger mechanism designated as the \ourapproach (ACB). The attack exploits the RLVR training loop by assigning substantial positive rewards for harmful responses and negative rewards for refusals. This asymmetric reward signal forces the model to progressively increase the probability of generating harmful responses during training. Our findings demonstrate that the RLVR backdoor attack is characterized by both high efficiency and strong generalization capabilities. Utilizing less than 2\% poisoned data in train set, the backdoor can be successfully implanted across various model scales without degrading performance on benign tasks. Evaluations across multiple jailbreak benchmarks indicate that activating the trigger degrades safety performance by an average of 73\%. Furthermore, the attack generalizes effectively to a wide range of jailbreak methods and unsafe behaviors. Code is available at https://github.com/yuki-younai/Backdoor_in_RLVR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.