2602.01539v2 Feb 02, 2026 cs.AI

MAGIC: 강력한 LLM 안전성을 위한 공진화 공격자-방어자 적대적 게임

MAGIC: A Co-Evolving Attacker-Defender Adversarial Game for Robust LLM Safety

Zhongtian Ma
Zhongtian Ma
Citations: 56
h-index: 3
Xingcheng Xu
Xingcheng Xu
Citations: 27
h-index: 4
Qiaosheng Zhang
Qiaosheng Zhang
Citations: 0
h-index: 0
Xiaoyu Wen
Xiaoyu Wen
Citations: 20
h-index: 2
Zhida He
Zhida He
Citations: 0
h-index: 0
Han Qi
Han Qi
Citations: 7
h-index: 2
Ziyu Wan
Ziyu Wan
Citations: 490
h-index: 7
Tianhang Zheng
Tianhang Zheng
Citations: 15
h-index: 2
Chaochao Lu
Chaochao Lu
Citations: 0
h-index: 0
Ying Wen
Ying Wen
Citations: 339
h-index: 10

대규모 언어 모델(LLM)의 안전성을 확보하는 것은 매우 중요하지만, 기존의 방어 기법들은 종종 정적이고 미리 수집된 데이터 분포에 대한 의존성 때문에 진화하는 적대적 공격에 뒤쳐지는 경향이 있습니다. 본 논문에서는 LLM 안전성 정렬을 적대적인 비대칭 게임으로 표현하는 새로운 다중 에이전트 강화 학습 프레임워크인 **MAGIC**을 소개합니다. 구체적으로, 공격자 에이전트는 원래 질문을 기만적인 프롬프트로 반복적으로 재작성하는 방법을 학습하고, 동시에 방어자 에이전트는 그러한 입력을 인식하고 거부하도록 정책을 최적화합니다. 이 동적인 과정은 **공진화**를 유발하며, 공격자의 끊임없이 변화하는 전략은 장기적인 취약점을 지속적으로 드러내어 방어자가 예측하지 못한 공격 패턴에 대한 일반화 능력을 향상시킵니다. 놀랍게도, 초기 추론 능력을 가진 공격자는 반복적인 강화 학습 훈련을 통해 **새롭고 이전에 볼 수 없었던 조합 전략**을 진화시키며, 이는 본 방법의 잠재력을 보여줍니다. 이론적으로, 우리는 더욱 강력한 게임 균형에 대한 통찰력을 제공하고 안전성 보장을 도출합니다. 광범위한 실험을 통해 본 프레임워크의 효과성을 검증했으며, 모델의 유용성을 저해하지 않고도 우수한 방어 성공률을 달성했습니다. 본 연구의 코드는 https://github.com/BattleWen/MAGIC 에서 확인할 수 있습니다.

Original Abstract

Ensuring robust safety alignment is crucial for Large Language Models (LLMs), yet existing defenses often lag behind evolving adversarial attacks due to their \textbf{reliance on static, pre-collected data distributions}. In this paper, we introduce \textbf{MAGIC}, a novel multi-turn multi-agent reinforcement learning framework that formulates LLM safety alignment as an adversarial asymmetric game. Specifically, an attacker agent learns to iteratively rewrite original queries into deceptive prompts, while a defender agent simultaneously optimizes its policy to recognize and refuse such inputs. This dynamic process triggers a \textbf{co-evolution}, where the attacker's ever-changing strategies continuously uncover long-tail vulnerabilities, driving the defender to generalize to unseen attack patterns. Remarkably, we observe that the attacker, endowed with initial reasoning ability, evolves \textbf{novel, previously unseen combinatorial strategies} through iterative RL training, underscoring our method's substantial potential. Theoretically, we provide insights into a more robust game equilibrium and derive safety guarantees. Extensive experiments validate our framework's effectiveness, demonstrating superior defense success rates without compromising the helpfulness of the model. Our code is available at https://github.com/BattleWen/MAGIC.

0 Citations
0 Influential
43.054589563221 Altmetric
215.3 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!