2602.16832v1 Feb 18, 2026 cs.AI

IndicJR: 남아시아 언어에서 jailbreak 공격에 대한 안전성 강건성을 평가하는 judge-free 벤치마크

IndicJR: A Judge-Free Benchmark of Jailbreak Robustness in South Asian Languages

Priyaranjan Pattnayak
Priyaranjan Pattnayak
Citations: 121
h-index: 8
Sanchari Chowdhuri
Sanchari Chowdhuri
Citations: 12
h-index: 1

대규모 언어 모델(LLM)의 안전성 정렬은 주로 영어로 평가되며, 계약 기반으로 진행되어 다국어 환경에서의 취약점이 제대로 연구되지 않고 있습니다. 본 연구에서는 12개의 인도 및 남아시아 언어(21억 명의 사용자)를 대상으로 하는 judge-free 벤치마크인 extbf{Indic Jailbreak Robustness (IJR)}를 소개합니다. IJR은 JSON(계약 기반) 및 Free(자연스러운) 트랙을 포함하여 45,216개의 프롬프트를 제공합니다. IJR 분석 결과, 세 가지 패턴이 나타났습니다. (1) 계약 조건은 거부율을 높이지만 jailbreak 공격을 막지는 못합니다. JSON 환경에서 LLaMA와 Sarvam 모델은 0.92 이상의 JSR 값을 보였으며, Free 환경에서는 모든 모델이 1.0에 도달하며 거부율이 현저히 낮아졌습니다. (2) 영어에서 인도 언어로의 공격이 효과적으로 전이되며, 특히 형식 래퍼(format wrapper)가 명령어 래퍼(instruction wrapper)보다 더 좋은 성능을 보이는 경우가 많습니다. (3) 문자 체계가 중요합니다. 로마자 또는 혼합된 입력은 JSON 환경에서 JSR 값을 감소시키며, 로마자 사용 비율 및 토큰화(약 0.28 ~ 0.32)와 상관관계가 있어 체계적인 영향을 미치는 것으로 나타났습니다. 인간 검토 결과, 감지기의 신뢰성이 확인되었으며, 경량 버전과 전체 버전의 비교를 통해 동일한 결론을 얻을 수 있었습니다. IJR은 영어에만 초점을 맞춘 평가로는 파악하기 어려운 위험을 드러내는 재현 가능한 다국어 스트레스 테스트를 제공하며, 특히 코드 스위칭 및 로마자 표기법을 자주 사용하는 남아시아 사용자에게 중요한 정보를 제공합니다.

Original Abstract

Safety alignment of large language models (LLMs) is mostly evaluated in English and contract-bound, leaving multilingual vulnerabilities understudied. We introduce \textbf{Indic Jailbreak Robustness (IJR)}, a judge-free benchmark for adversarial safety across 12 Indic and South Asian languages (2.1 Billion speakers), covering 45216 prompts in JSON (contract-bound) and Free (naturalistic) tracks. IJR reveals three patterns. (1) Contracts inflate refusals but do not stop jailbreaks: in JSON, LLaMA and Sarvam exceed 0.92 JSR, and in Free all models reach 1.0 with refusals collapsing. (2) English to Indic attacks transfer strongly, with format wrappers often outperforming instruction wrappers. (3) Orthography matters: romanized or mixed inputs reduce JSR under JSON, with correlations to romanization share and tokenization (approx 0.28 to 0.32) indicating systematic effects. Human audits confirm detector reliability, and lite-to-full comparisons preserve conclusions. IJR offers a reproducible multilingual stress test revealing risks hidden by English-only, contract-focused evaluations, especially for South Asian users who frequently code-switch and romanize.

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!