ForesightSafety Bench: 안전한 AI를 위한 최첨단 위험 평가 및 거버넌스 프레임워크
ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI
빠르게 발전하는 AI는 점점 더 강력한 자율성과 목표 지향적인 능력을 보여주며, 동시에 예측하기 어렵고 통제하기 힘들며 잠재적으로 되돌릴 수 없는 체계적 위험을 야기합니다. 그러나 현재의 AI 안전 평가 시스템은 제한적인 위험 차원 및 최첨단 위험 탐지 실패와 같은 중요한 한계를 가지고 있습니다. 뒤처지는 안전 벤치마크 및 정렬 기술로는 최첨단 AI 모델이 제시하는 복잡한 과제를 해결하기 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 7개의 주요 기본 안전 축을 시작으로 점진적으로 발전된 임베디드 AI 안전, AI4Science 안전, 사회적 및 환경적 AI 위험, 재앙적 및 실존적 위험, 그리고 8개의 중요한 산업 안전 영역을 포함하는 총 94개의 정교화된 위험 차원을 갖춘 "ForesightSafety Bench" AI 안전 평가 프레임워크를 제안합니다. 현재까지 이 벤치마크는 수만 개의 구조화된 위험 데이터 포인트와 평가 결과를 축적하여 광범위하고 계층적으로 명확하며 동적으로 발전하는 AI 안전 평가 프레임워크를 구축했습니다. 이 벤치마크를 기반으로, 우리는 20개 이상의 주요 첨단 대규모 모델에 대한 체계적인 평가 및 심층적인 분석을 수행하여 주요 위험 패턴과 그 능력의 경계를 파악했습니다. 안전 능력 평가 결과는 여러 영역에서 최첨단 AI의 광범위한 안전 취약점을 드러내며, 특히 위험한 자율적 행동, AI4Science 안전, 임베디드 AI 안전, 사회적 AI 안전 및 재앙적/실존적 위험에 중점을 둡니다. 이 벤치마크는 https://github.com/Beijing-AISI/ForesightSafety-Bench 에서 공개되며, 프로젝트 웹사이트는 https://foresightsafety-bench.beijing-aisi.ac.cn/ 에서 확인할 수 있습니다.
Rapidly evolving AI exhibits increasingly strong autonomy and goal-directed capabilities, accompanied by derivative systemic risks that are more unpredictable, difficult to control, and potentially irreversible. However, current AI safety evaluation systems suffer from critical limitations such as restricted risk dimensions and failed frontier risk detection. The lagging safety benchmarks and alignment technologies can hardly address the complex challenges posed by cutting-edge AI models. To bridge this gap, we propose the "ForesightSafety Bench" AI Safety Evaluation Framework, beginning with 7 major Fundamental Safety pillars and progressively extends to advanced Embodied AI Safety, AI4Science Safety, Social and Environmental AI risks, Catastrophic and Existential Risks, as well as 8 critical industrial safety domains, forming a total of 94 refined risk dimensions. To date, the benchmark has accumulated tens of thousands of structured risk data points and assessment results, establishing a widely encompassing, hierarchically clear, and dynamically evolving AI safety evaluation framework. Based on this benchmark, we conduct systematic evaluation and in-depth analysis of over twenty mainstream advanced large models, identifying key risk patterns and their capability boundaries. The safety capability evaluation results reveals the widespread safety vulnerabilities of frontier AI across multiple pillars, particularly focusing on Risky Agentic Autonomy, AI4Science Safety, Embodied AI Safety, Social AI Safety and Catastrophic and Existential Risks. Our benchmark is released at https://github.com/Beijing-AISI/ForesightSafety-Bench. The project website is available at https://foresightsafety-bench.beijing-aisi.ac.cn/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.