LLM 안전성 내부에서 구현: 내부 표현을 활용한 유해 콘텐츠 탐지
LLM Safety From Within: Detecting Harmful Content with Internal Representations
가드 모델은 사용자 프롬프트 및 LLM 응답에서 유해 콘텐츠를 탐지하는 데 널리 사용됩니다. 그러나 최첨단 가드 모델은 터미널 레이어 표현에만 의존하며, 내부 레이어에 분산된 다양한 안전 관련 특징을 간과합니다. 본 연구에서는 이러한 내부 특징을 활용하는 경량 가드 모델인 SIREN을 제시합니다. SIREN은 선형 프로빙을 통해 안전 관련 뉴런을 식별하고, 적응형 레이어 가중치 전략을 통해 이를 결합하여, LLM 자체를 수정하지 않고 LLM 내부에서 유해성 탐지기를 구축합니다. 포괄적인 평가 결과, SIREN은 여러 벤치마크에서 최첨단 오픈 소스 가드 모델보다 훨씬 뛰어난 성능을 보이며, 학습 가능한 파라미터 수는 250배 적게 사용합니다. 또한, SIREN은 미지의 벤치마크에 대한 우수한 일반화 성능을 보이며, 실시간 스트리밍 탐지를 자연스럽게 지원하고, 생성형 가드 모델보다 추론 효율성이 크게 향상됩니다. 전반적으로, 본 연구 결과는 LLM의 내부 상태가 실용적이고 고성능의 유해성 탐지를 위한 유망한 기반임을 보여줍니다.
Guard models are widely used to detect harmful content in user prompts and LLM responses. However, state-of-the-art guard models rely solely on terminal-layer representations and overlook the rich safety-relevant features distributed across internal layers. We present SIREN, a lightweight guard model that harnesses these internal features. By identifying safety neurons via linear probing and combining them through an adaptive layer-weighted strategy, SIREN builds a harmfulness detector from LLM internals without modifying the underlying model. Our comprehensive evaluation shows that SIREN substantially outperforms state-of-the-art open-source guard models across multiple benchmarks while using 250 times fewer trainable parameters. Moreover, SIREN exhibits superior generalization to unseen benchmarks, naturally enables real-time streaming detection, and significantly improves inference efficiency compared to generative guard models. Overall, our results highlight LLM internal states as a promising foundation for practical, high-performance harmfulness detection.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.