SafeSci: 과학 분야 및 그 외 영역에서 대규모 언어 모델의 안전성 평가
SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond
대규모 언어 모델(LLM)이 과학 분야에서 성공을 거두면서 안전에 대한 우려가 커졌고, 이에 따라 LLM의 과학적 안전성을 평가하기 위한 다양한 벤치마크가 등장했습니다. 기존 벤치마크는 종종 제한적인 위험 범위와 주관적인 평가에 의존하는 문제를 가지고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 과학적 맥락에서 안전성 평가 및 향상을 위한 포괄적인 프레임워크인 SafeSci를 소개합니다. SafeSci는 0.25M개의 샘플을 포함하는 다학문 벤치마크인 SafeSciBench와 1.5M개의 샘플을 포함하는 안전성 향상을 위한 대규모 데이터셋인 SafeSciTrain으로 구성됩니다. SafeSciBench는 안전 지식과 위험을 구별하여 광범위한 범위를 포괄하고, 객관적인 지표(예: 결정적으로 답변 가능한 질문)를 사용하여 평가 편향을 완화합니다. 우리는 24개의 고급 LLM을 평가하여 현재 모델의 중요한 취약점을 밝혀냈습니다. 또한, LLM이 안전 관련 문제에 대해 다양한 수준의 과도한 거부 행동을 보이는 것을 관찰했습니다. 안전성 향상을 위해, SafeSciTrain을 사용하여 모델을 미세 조정하면 모델의 안전 정렬을 크게 향상시킬 수 있음을 보여줍니다. 마지막으로, 지식은 양날의 검이라는 점을 강조하며, 과학적 질문의 안전성은 보편적으로 안전 또는 위험으로 분류하기보다는 특정 맥락에 따라 결정되어야 한다고 주장합니다. 우리의 연구는 더 안전한 과학 AI 시스템을 구축하기 위한 진단 도구이자 실용적인 자료를 제공합니다.
The success of large language models (LLMs) in scientific domains has heightened safety concerns, prompting numerous benchmarks to evaluate their scientific safety. Existing benchmarks often suffer from limited risk coverage and a reliance on subjective evaluation. To address these problems, we introduce SafeSci, a comprehensive framework for safety evaluation and enhancement in scientific contexts. SafeSci comprises SafeSciBench, a multi-disciplinary benchmark with 0.25M samples, and SafeSciTrain, a large-scale dataset containing 1.5M samples for safety enhancement. SafeSciBench distinguishes between safety knowledge and risk to cover extensive scopes and employs objective metrics such as deterministically answerable questions to mitigate evaluation bias. We evaluate 24 advanced LLMs, revealing critical vulnerabilities in current models. We also observe that LLMs exhibit varying degrees of excessive refusal behaviors on safety-related issues. For safety enhancement, we demonstrate that fine-tuning on SafeSciTrain significantly enhances the safety alignment of models. Finally, we argue that knowledge is a double-edged sword, and determining the safety of a scientific question should depend on specific context, rather than universally categorizing it as safe or unsafe. Our work provides both a diagnostic tool and a practical resource for building safer scientific AI systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.