다중 턴 언어 모델 상호 작용에서의 상태 의존적 안전성 실패
State-Dependent Safety Failures in Multi-Turn Language Model Interaction
대규모 언어 모델의 안전성 정렬은 일반적으로 독립적인 질의에 대해 평가되지만, 실제 사용 환경은 본질적으로 다중 턴으로 구성됩니다. 다중 턴 공격이 실질적으로 효과적임에도 불구하고, 대화형 안전성 실패의 구조는 아직 충분히 이해되지 않았습니다. 본 연구에서는 상태 공간 관점에서 안전성 실패를 분석하고, 많은 다중 턴 실패가 격리된 프롬프트 취약성보다는 구조화된 문맥 상태의 변화에서 비롯된다는 것을 보여줍니다. 우리는 STAR라는 상태 지향적 진단 프레임워크를 제시합니다. STAR는 대화 기록을 상태 변환 연산자로 취급하여 상호 작용 경로에 따른 안전성 동작을 체계적으로 분석할 수 있도록 합니다. STAR는 공격 강도를 최적화하는 대신, 정렬된 모델이 자기 회귀 조건 하에서 안전 경계를 어떻게 넘나가는지 원리적으로 탐구합니다. 여러 최첨단 언어 모델에 대한 분석 결과, 정적 평가에서는 견고해 보이는 시스템이 구조화된 다중 턴 상호 작용 하에서 급격하고 재현 가능한 안전성 붕괴를 겪을 수 있음을 확인했습니다. 메커니즘 분석 결과, 거부 관련 표현으로부터의 단조적인 편향과 역할 기반 문맥에 의해 유발되는 갑작스러운 상전이가 관찰되었습니다. 이러한 결과들은 언어 모델의 안전성을 대화 경로에 정의된 동적이고 상태 의존적인 프로세스로 보는 데 중요한 동기를 부여합니다.
Safety alignment in large language models is typically evaluated under isolated queries, yet real-world use is inherently multi-turn. Although multi-turn jailbreaks are empirically effective, the structure of conversational safety failure remains insufficiently understood. In this work, we study safety failures from a state-space perspective and show that many multi-turn failures arise from structured contextual state evolution rather than isolated prompt vulnerabilities. We introduce STAR, a state-oriented diagnostic framework that treats dialogue history as a state transition operator and enables controlled analysis of safety behavior along interaction trajectories. Rather than optimizing attack strength, STAR provides a principled probe of how aligned models traverse the safety boundary under autoregressive conditioning. Across multiple frontier language models, we find that systems that appear robust under static evaluation can undergo rapid and reproducible safety collapse under structured multi-turn interaction. Mechanistic analysis reveals monotonic drift away from refusal-related representations and abrupt phase transitions induced by role-conditioned context. Together, these findings motivate viewing language model safety as a dynamic, state-dependent process defined over conversational trajectories.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.