2601.19726v1 Jan 27, 2026 cs.CR

RvB: 반복적인 레드-블루 게임을 통한 인공지능 시스템 강화 자동화

RvB: Automating AI System Hardening via Iterative Red-Blue Games

Lewen Yan
Lewen Yan
Citations: 8
h-index: 1
Lige Huang
Lige Huang
Citations: 8
h-index: 1
Dongrui Liu
Dongrui Liu
Citations: 372
h-index: 10
Jing Shao
Jing Shao
Citations: 413
h-index: 10
Zicheng Liu
Zicheng Liu
Citations: 0
h-index: 0
Jie Zhang
Jie Zhang
Citations: 156
h-index: 5

대규모 언어 모델(LLM)의 공격 및 방어 양면성은 인공지능 보안의 중요한 과제인, 동적이고 반복적인 적대적 적응 강화를 위한 통합 프레임워크 부재를 드러냅니다. 이러한 격차를 해소하기 위해, 우리는 학습 과정이 필요 없는, 순차적이고 불완전 정보 게임 형태로 구성된 레드 팀 vs. 블루 팀(RvB) 프레임워크를 제안합니다. 이 과정에서 레드 팀은 취약점을 노출하고, 블루 팀은 파라미터 업데이트 없이 효과적인 해결책을 학습하도록 유도합니다. 우리는 이 프레임워크를 CVE(Common Vulnerabilities and Exposures)에 대한 동적 코드 강화 및 jailbreak 공격에 대한 가드레일 최적화라는 두 가지 어려운 영역에서 검증했습니다. 실험 결과, 이 상호작용은 블루 팀이 기본적인 방어 원칙을 학습하도록 유도하여 특정 공격에 과적합되지 않고 견고한 해결책을 제공합니다. RvB는 각각 90%와 45%의 방어 성공률을 달성했으며, 오탐율은 거의 0%로, 기존 방법보다 훨씬 우수한 성능을 보였습니다. 본 연구는 반복적인 적대적 상호작용 프레임워크를 인공지능 시스템의 지속적인 강화를 자동화하는 실용적인 패러다임으로 확립합니다.

Original Abstract

The dual offensive and defensive utility of Large Language Models (LLMs) highlights a critical gap in AI security: the lack of unified frameworks for dynamic, iterative adversarial adaptation hardening. To bridge this gap, we propose the Red Team vs. Blue Team (RvB) framework, formulated as a training-free, sequential, imperfect-information game. In this process, the Red Team exposes vulnerabilities, driving the Blue Team to learning effective solutions without parameter updates. We validate our framework across two challenging domains: dynamic code hardening against CVEs and guardrail optimization against jailbreaks. Our empirical results show that this interaction compels the Blue Team to learn fundamental defensive principles, leading to robust remediations that are not merely overfitted to specific exploits. RvB achieves Defense Success Rates of 90\% and 45\% across the respective tasks while maintaining near 0\% False Positive Rates, significantly surpassing baselines. This work establishes the iterative adversarial interaction framework as a practical paradigm that automates the continuous hardening of AI systems.

0 Citations
0 Influential
5 Altmetric
25.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!