2602.04581v1 Feb 04, 2026 cs.CL

일반적인 것을 믿으세요: 안전성을 위한 새로운 접근 방식

Trust The Typical

Debargha Ganguly
Debargha Ganguly
Citations: 34
h-index: 3
Sreehari Sankar
Sreehari Sankar
Citations: 7
h-index: 1
Biyao Zhang
Biyao Zhang
Citations: 8
h-index: 1
Vikash Singh
Vikash Singh
Case Western Reserve University
Citations: 14
h-index: 2
Kanan Gupta
Kanan Gupta
Citations: 19
h-index: 2
Harshini Kavuru
Harshini Kavuru
Citations: 1
h-index: 1
A. Luo
A. Luo
Citations: 111
h-index: 2
Weicong Chen
Weicong Chen
Citations: 6
h-index: 2
Warren Morningstar
Warren Morningstar
Citations: 65
h-index: 2
R. Machiraju
R. Machiraju
Citations: 4,488
h-index: 37
Vipin Chaudhary
Vipin Chaudhary
Citations: 61
h-index: 5

현재 LLM 안전성 확보를 위한 접근 방식은 주로 방어막(guardrail)을 통해 알려진 위협을 식별하고 차단하는 취약한 '고양이와 쥐' 게임에 의존합니다. 우리는 새로운 접근 방식을 제안합니다. 진정한 안전은 유해한 것을 나열하는 것이 아니라 안전한 것이 무엇인지 깊이 이해하는 데서 비롯됩니다. 우리는 Trust The Typical (T3)이라는 프레임워크를 소개합니다. T3는 안전을 이상 감지(out-of-distribution detection) 문제로 보고, 이 원칙을 실현합니다. T3는 의미 공간에서 허용 가능한 프롬프트의 분포를 학습하고, 상당한 편차는 잠재적인 위협으로 간주합니다. 기존 방법과 달리, T3는 유해한 예시에 대한 학습이 필요 없으며, 독성, 혐오 발언, 탈옥, 다국어 유해성, 과도한 거부 등 18개의 벤치마크에서 최첨단 성능을 달성하고, 특수 안전 모델에 비해 최대 40배 낮은 오탐율을 보입니다. 안전한 영어 텍스트로만 학습된 단일 모델은 재학습 없이 다양한 도메인과 14개 이상의 언어로 효과적으로 적용됩니다. 마지막으로, 우리는 GPU 최적화된 버전을 vLLM에 통합하여 실제 적용 가능성을 입증했습니다. 이를 통해 대규모 작업 환경에서 토큰 생성 중에도 6% 미만의 오버헤드로 지속적인 방어막 기능을 제공합니다.

Original Abstract

Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.

1 Citations
0 Influential
18.5 Altmetric
93.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!