의도 속임수를 통한 최첨단 기반 모델의 제어 우회
Jailbreaking Frontier Foundation Models Through Intention Deception
대규모(이미지-)언어 모델은 놀라운 성능을 보이지만, 여전히 제어 우회 공격에 취약합니다. 기존의 안전 교육 방식은 모델이 사용자의 의도를 기반으로 안전 및 위험 영역 간의 경계를 학습하도록 하는 것을 목표로 합니다. 그러나 이러한 이분법적인 학습 방식은 사용자의 의도를 신뢰성 있게 평가하기 어렵고, 특히 공격자가 자신의 의도를 숨기려는 경우 취약점을 드러내며 시스템을 무용하게 만들 수 있습니다. 이에 대응하여 GPT-5와 같은 최첨단 모델은 거부 기반의 안전 장치에서 안전한 응답 제공 방식으로 전환하여 안전 제약을 준수하면서도 유용성을 극대화하는 것을 목표로 합니다. 그러나 사용자가 자신의 의도가 선량하다고 가장할 경우, 안전한 응답 제공 방식은 악용될 수 있습니다. 특히, 공격자는 다중 턴 대화에서 여러 기회를 활용하여 기만적인 선의 의도를 강화함으로써 이러한 의도 역전(intent inversion)을 효과적으로 사용할 수 있습니다. 본 연구에서는 이러한 취약점을 악용한 새로운 다중 턴 제어 우회 방법을 소개합니다. 저희의 접근 방식은 모델이 제시하는 선량해 보이는 의도를 시뮬레이션하고 모델의 일관성 특성을 활용하여 점진적으로 대화적 신뢰를 구축함으로써, 궁극적으로 대상 모델이 유해하고 상세한 응답을 생성하도록 유도합니다. 더욱 중요한 점은, 저희의 접근 방식은 기존에 인지되지 않았던 새로운 유형의 모델 취약점, 즉 '준-제어 우회(para-jailbreaking)'를 발견했습니다. 준-제어 우회는 모델이 공격 쿼리에 대한 직접적인 유해한 응답을 제공하지 않더라도, 제공하는 정보 자체가 유해한 상황을 의미합니다. 본 연구의 주요 기여는 세 가지입니다. 첫째, GPT-5-thinking 및 Claude-Sonnet-4.5를 포함한 최첨단 모델에 대해 높은 성공률을 달성했습니다. 둘째, 준-제어 우회를 발견하고 이에 대한 해결책을 제시했습니다. 셋째, 멀티모달 VLM 모델에 대한 실험 결과, 저희의 접근 방식이 최첨단 모델보다 우수한 성능을 보였습니다.
Large (vision-)language models exhibit remarkable capability but remain highly susceptible to jailbreaking. Existing safety training approaches aim to have the model learn a refusal boundary between safe and unsafe, based on the user's intent. It has been found that this binary training regime often leads to brittleness, since the user intent cannot reliably be evaluated, especially if the attacker obfuscates their intent, and also makes the system seem unhelpful. In response, frontier models, such as GPT-5, have shifted from refusal-based safeguards to safe completion, that aims to maximize helpfulness while obeying safety constraints. However, safe completion could be exploited when a user pretends their intention is benign. Specifically, this intent inversion would be effective in multi-turn conversation, where the attacker has multiple opportunities to reinforce their deceptively benign intent. In this work, we introduce a novel multi-turn jailbreaking method that exploits this vulnerability. Our approach gradually builds conversational trust by simulating benign-seeming intentions and by exploiting the consistency property of the model, ultimately guiding the target model toward harmful, detailed outputs. Most crucially, our approach also uncovered an additional class of model vulnerability that we call para-jailbreaking that has been unnoticed up to now. Para-jailbreaking describes the situation where the model may not reveal harmful direct reply to the attack query, however the information that it reveals is nevertheless harmful. Our contributions are threefold. First, it achieves high success rates against frontier models including GPT-5-thinking and Claude-Sonnet-4.5. Second, our approach revealed and addressed para-jailbreaking harmful output. Third, experiments on multimodal VLM models showed that our approach outperformed state-of-the-art models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.