2601.05466v1 Jan 09, 2026 cs.CR

강화 학습을 통한 반복적인 도구 위장 공격을 이용한 대규모 언어 모델의 제어 우회

Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning

Zhaoqi Wang
Zhaoqi Wang
Citations: 14
h-index: 2
Zijian Zhang
Zijian Zhang
Citations: 1,011
h-index: 3
Daqing He
Daqing He
Citations: 0
h-index: 0
Pengtao Kou
Pengtao Kou
Citations: 0
h-index: 0
Xin Li
Xin Li
Citations: 63
h-index: 4
Jiamou Liu
Jiamou Liu
Citations: 29
h-index: 3
Jincheng An
Jincheng An
Citations: 17
h-index: 2
Yong Liu
Yong Liu
Citations: 16
h-index: 2

대규모 언어 모델(LLM)은 다양한 분야에서 놀라운 능력을 보여주었지만, 여전히 인간의 가치와 안전 지침을 위반하는 유해한 응답을 유도하는 제어 우회 공격에 취약합니다. 기존의 방어 메커니즘에 대한 많은 연구가 진행되었지만, 기존의 안전 장치는 정교한 적대적 전략에 충분히 효과적이지 않습니다. 본 연구에서는 현재 방어 메커니즘의 취약점을 시너지 효과적으로 활용하는 새로운 적응형 제어 우회 방법인 iMIST(असेरषरे ऱळेलरह् नेशर्री तुने नुशे निरे नुशे नुशेारीनेनिरे)를 제안합니다. iMIST는 악성 쿼리를 정상적인 도구 호출로 위장하여 콘텐츠 필터를 우회하는 동시에, 실시간 유해성 평가를 통해 다중 턴 대화에서 응답의 유해성을 동적으로 증폭시키는 대화형 점진적 최적화 알고리즘을 도입합니다. 널리 사용되는 모델에 대한 실험 결과, iMIST는 높은 공격 성공률을 달성하면서도 낮은 거부율을 유지하는 것으로 나타났습니다. 이러한 결과는 현재 LLM 안전 메커니즘의 중요한 취약점을 드러내며, 더욱 강력한 방어 전략의 시급한 필요성을 강조합니다.

Original Abstract

Large language models (LLMs) have demonstrated remarkable capabilities across diverse applications, however, they remain critically vulnerable to jailbreak attacks that elicit harmful responses violating human values and safety guidelines. Despite extensive research on defense mechanisms, existing safeguards prove insufficient against sophisticated adversarial strategies. In this work, we propose iMIST (\underline{i}nteractive \underline{M}ulti-step \underline{P}rogre\underline{s}sive \underline{T}ool-disguised Jailbreak Attack), a novel adaptive jailbreak method that synergistically exploits vulnerabilities in current defense mechanisms. iMIST disguises malicious queries as normal tool invocations to bypass content filters, while simultaneously introducing an interactive progressive optimization algorithm that dynamically escalates response harmfulness through multi-turn dialogues guided by real-time harmfulness assessment. Our experiments on widely-used models demonstrate that iMIST achieves higher attack effectiveness, while maintaining low rejection rates. These results reveal critical vulnerabilities in current LLM safety mechanisms and underscore the urgent need for more robust defense strategies.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!