2605.07414v1 May 08, 2026 cs.MA

OrchJail: 오케스트레이션 기반 퍼징을 활용한 툴 호출 텍스트-이미지 생성 모델의 탈옥 도구

OrchJail: Jailbreaking Tool-Calling Text-to-Image Agents by Orchestration-Guided Fuzzing

Junjie Wang
Junjie Wang
Citations: 24
h-index: 2
Yawen Wang
Yawen Wang
Citations: 231
h-index: 9
Qing Wang
Qing Wang
Citations: 1,624
h-index: 17
Fanjiang Xu
Fanjiang Xu
Citations: 29
h-index: 3
Jianming Chen
Jianming Chen
Citations: 19
h-index: 3
Zhe Liu
Zhe Liu
Citations: 1,497
h-index: 15

툴 호출 텍스트-이미지(T2I) 모델은 복잡한 생성 및 편집 작업을 수행하기 위해 여러 단계를 거치는 툴 체인을 계획하고 실행할 수 있습니다. 그러나 이러한 기능은 새로운 보안 취약점을 야기합니다. 개별적으로는 안전한 단계들이 결합되어 위험한 결과가 발생할 수 있으며, 이로 인해 프롬프트 기반의 탈옥 기술만으로는 충분하지 않습니다. 본 연구에서는 툴 호출 T2I 모델의 탈옥을 위한 오케스트레이션 기반 퍼징 프레임워크인 OrchJail을 제시합니다. OrchJail의 핵심 아이디어는 고위험 툴 오케스트레이션 패턴을 활용하는 것입니다. 성공적인 탈옥 툴 호출 시퀀스와 프롬프트 내용 간의 인과 관계를 학습하여, OrchJail은 표면적인 텍스트 변경에 의존하는 대신, 안전하지 않은 다단계 툴 동작을 유발할 가능성이 높은 프롬프트를 직접적으로 찾도록 퍼징 검색을 안내합니다. 광범위한 실험 결과, OrchJail은 대표적인 툴 호출 T2I 모델에서 탈옥 효과와 효율성을 향상시켰으며, 더 높은 공격 성공률, 향상된 이미지 품질, 그리고 낮은 쿼리 비용을 달성했습니다. 또한, 일반적인 탈옥 방어 기술에 대한 견고성을 유지합니다. 본 연구는 툴 오케스트레이션을 중요한, 그러나 이전에는 탐구되지 않았던 공격 표면으로 강조하며, T2I 모델의 안전 위험을 발견하기 위한 새로운 프레임워크를 제공합니다.

Original Abstract

Tool-calling text-to-image (T2I) agents can plan and execute multi-step tool chains to accomplish complex generation and editing queries. However, this capability introduces a new safety attack surface: harmful outputs may arise from tool orchestration, where individually benign steps combine into unsafe results, making prompt-only jailbreak techniques insufficient. We present OrchJail, an orchestration-guided fuzzing framework for jailbreaking tool-calling T2I agents. Its core idea is to exploit high-risk tool-orchestration patterns: by learning from successful jailbreak tool-calling traces and their causal relationships to prompt wording, OrchJail directly guides the fuzzing search toward prompts that are more likely to trigger unsafe multi-step tool behaviors, rather than relying on surface-level textual perturbations. Extensive experiments demonstrate that OrchJail improves jailbreak effectiveness and efficiency across representative toolcalling T2I agents, achieving higher attack success rates, better image fidelity, and lower query costs, while remaining robust against common jailbreak defenses. Our work highlights tool orchestration as a critical, previously unexplored attack surface and provides a novel framework for uncovering safety risks in T2I agents.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!