2601.22169v1 Jan 19, 2026 cs.CL

와인 속의 진실과 취약점: 술 취한 언어를 유도하여 LLM의 안전성을 검토

In Vino Veritas and Vulnerabilities: Examining LLM Safety via Drunk Language Inducement

A. Joshi
A. Joshi
Citations: 92
h-index: 3
Anudeex Shetty
Anudeex Shetty
Citations: 31
h-index: 3
S. Kanhere
S. Kanhere
Citations: 18,370
h-index: 67

사람은 술에 취했을 때 바람직하지 않은 행동과 개인 정보 유출에 취약해집니다. 본 논문에서는 술에 취한 상태에서 작성된 텍스트, 즉 '술 취한 언어'를 사용하여 대규모 언어 모델(LLM)의 안전성 문제를 연구합니다. LLM에서 술 취한 언어를 유도하기 위한 세 가지 방법을 조사합니다: 페르소나 기반 프롬프트, 인과 관계 기반 미세 조정, 강화 학습 기반 추가 훈련. 5개의 LLM을 평가한 결과, 영어로 된 벤치마크인 JailbreakBench에서 기존 방식 및 기본 LLM에 비해 탈옥 공격에 더 취약하며, ConfAIde에서 개인 정보 유출 가능성이 더 높았습니다. 수동 평가 및 LLM 기반 평가기를 결합하고 오류 유형을 분석한 결과, 인간의 술에 취한 행동과 술 취한 언어를 통해 유도된 LLM의 인간화된 특성 사이에 연관성이 있음을 확인했습니다. 본 논문에서 제시하는 술 취한 언어 유도 방법은 단순하고 효율적이므로, LLM 안전성 조정을 위한 잠재적인 해결책이 될 수 있으며, LLM 안전에 대한 상당한 위험을 시사합니다.

Original Abstract

Humans are susceptible to undesirable behaviours and privacy leaks under the influence of alcohol. This paper investigates drunk language, i.e., text written under the influence of alcohol, as a driver for safety failures in large language models (LLMs). We investigate three mechanisms for inducing drunk language in LLMs: persona-based prompting, causal fine-tuning, and reinforcement-based post-training. When evaluated on 5 LLMs, we observe a higher susceptibility to jailbreaking on JailbreakBench (even in the presence of defences) and privacy leaks on ConfAIde, where both benchmarks are in English, as compared to the base LLMs as well as previously reported approaches. Via a robust combination of manual evaluation and LLM-based evaluators and analysis of error categories, our findings highlight a correspondence between human-intoxicated behaviour, and anthropomorphism in LLMs induced with drunk language. The simplicity and efficiency of our drunk language inducement approaches position them as potential counters for LLM safety tuning, highlighting significant risks to LLM safety.

0 Citations
0 Influential
30 Altmetric
150.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!