DeepSight: 올인원 대형 모델(LM) 안전성 툴킷
DeepSight: An All-in-One LM Safety Toolkit
대형 모델(LM)의 개발이 빠르게 진행됨에 따라, 그 안전성 또한 최우선 과제가 되고 있다. 현재의 대형 언어 모델(LLM) 및 멀티모달 대형 언어 모델(MLLM) 안전성 워크플로우에서는 평가, 진단, 정렬이 종종 개별 도구에 의해 처리된다. 구체적으로, 안전성 평가는 외부적인 행동 위험을 파악할 수 있을 뿐 내부적인 근본 원인을 밝혀내지는 못한다. 한편, 안전성 진단은 구체적인 위험 시나리오에서 벗어나 설명 가능한 수준에 머무르는 경우가 많다. 이로 인해 안전성 정렬 시 내부 메커니즘 변화에 대한 구체적인 설명이 부족해져 모델의 일반적인 성능이 저하될 가능성이 있다. 이러한 문제들을 체계적으로 해결하기 위해, 우리는 새로운 안전성 평가 및 진단 통합 패러다임을 실천하는 오픈소스 프로젝트인 DeepSight를 제안한다. DeepSight는 저비용, 재현성, 고효율 및 높은 확장성을 지닌 대규모 모델 안전성 평가 프로젝트로, 평가 툴킷인 DeepSafe와 진단 툴킷인 DeepScan으로 구성된다. 작업 및 데이터 프로토콜을 통합함으로써 우리는 두 단계 간의 연결 고리를 구축하고, 안전성 평가를 블랙박스에서 화이트박스 통찰로 전환한다. 게다가 DeepSight는 최첨단 AI 위험 평가와 안전성 평가 및 진단의 통합을 지원하는 최초의 오픈소스 툴킷이다.
As the development of Large Models (LMs) progresses rapidly, their safety is also a priority. In current Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) safety workflow, evaluation, diagnosis, and alignment are often handled by separate tools. Specifically, safety evaluation can only locate external behavioral risks but cannot figure out internal root causes. Meanwhile, safety diagnosis often drifts from concrete risk scenarios and remains at the explainable level. In this way, safety alignment lack dedicated explanations of changes in internal mechanisms, potentially degrading general capabilities. To systematically address these issues, we propose an open-source project, namely DeepSight, to practice a new safety evaluation-diagnosis integrated paradigm. DeepSight is low-cost, reproducible, efficient, and highly scalable large-scale model safety evaluation project consisting of a evaluation toolkit DeepSafe and a diagnosis toolkit DeepScan. By unifying task and data protocols, we build a connection between the two stages and transform safety evaluation from black-box to white-box insight. Besides, DeepSight is the first open source toolkit that support the frontier AI risk evaluation and joint safety evaluation and diagnosis.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.