2602.12092v1 Feb 12, 2026 cs.CL

DeepSight: 올인원 대형 모델(LM) 안전성 툴킷

DeepSight: An All-in-One LM Safety Toolkit

Chen Qian
Chen Qian
Citations: 1
h-index: 1
Guanxu Chen
Guanxu Chen
Citations: 51
h-index: 4
Qihao Lin
Qihao Lin
Citations: 8
h-index: 1
Bo Zhang
Bo Zhang
Citations: 25
h-index: 2
Jiaxuan Guo
Jiaxuan Guo
Citations: 27
h-index: 3
Xia Hu
Xia Hu
Citations: 1
h-index: 1
Yijin Zhou
Yijin Zhou
Citations: 8
h-index: 1
Lijun Li
Lijun Li
Citations: 0
h-index: 0
Dongrui Liu
Dongrui Liu
Citations: 2
h-index: 1
Sujin Chen
Sujin Chen
Citations: 0
h-index: 0
Zhijie Zheng
Zhijie Zheng
Citations: 8
h-index: 1
Lewen Yan
Lewen Yan
Citations: 8
h-index: 1
Yuyao Wu
Yuyao Wu
Citations: 0
h-index: 0
Shaoxiong Guo
Shaoxiong Guo
Citations: 8
h-index: 1
Tianyi Du
Tianyi Du
Citations: 0
h-index: 0
Jingyi Yang
Jingyi Yang
Citations: 77
h-index: 5
Xuhao Hu
Xuhao Hu
Citations: 303
h-index: 6
Ziqi Miao
Ziqi Miao
Citations: 23
h-index: 3
Xiaoyan Lu
Xiaoyan Lu
Citations: 0
h-index: 0
Jing Shao
Jing Shao
Citations: 8
h-index: 1

대형 모델(LM)의 개발이 빠르게 진행됨에 따라, 그 안전성 또한 최우선 과제가 되고 있다. 현재의 대형 언어 모델(LLM) 및 멀티모달 대형 언어 모델(MLLM) 안전성 워크플로우에서는 평가, 진단, 정렬이 종종 개별 도구에 의해 처리된다. 구체적으로, 안전성 평가는 외부적인 행동 위험을 파악할 수 있을 뿐 내부적인 근본 원인을 밝혀내지는 못한다. 한편, 안전성 진단은 구체적인 위험 시나리오에서 벗어나 설명 가능한 수준에 머무르는 경우가 많다. 이로 인해 안전성 정렬 시 내부 메커니즘 변화에 대한 구체적인 설명이 부족해져 모델의 일반적인 성능이 저하될 가능성이 있다. 이러한 문제들을 체계적으로 해결하기 위해, 우리는 새로운 안전성 평가 및 진단 통합 패러다임을 실천하는 오픈소스 프로젝트인 DeepSight를 제안한다. DeepSight는 저비용, 재현성, 고효율 및 높은 확장성을 지닌 대규모 모델 안전성 평가 프로젝트로, 평가 툴킷인 DeepSafe와 진단 툴킷인 DeepScan으로 구성된다. 작업 및 데이터 프로토콜을 통합함으로써 우리는 두 단계 간의 연결 고리를 구축하고, 안전성 평가를 블랙박스에서 화이트박스 통찰로 전환한다. 게다가 DeepSight는 최첨단 AI 위험 평가와 안전성 평가 및 진단의 통합을 지원하는 최초의 오픈소스 툴킷이다.

Original Abstract

As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!