ForesightSafety Bench: 안전한 AI를 위한 첨단 위험 평가 및 거버넌스 프레임워크
ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI
급속도로 발전하는 AI는 점점 더 강력한 자율성과 목표 지향적 능력을 보여주고 있으며, 이에 따라 예측 불가능하고 통제하기 어려우며 잠재적으로 되돌릴 수 없는 파생적 시스템 위험이 수반되고 있습니다. 그러나 현재의 AI 안전성 평가 시스템은 제한된 위험 차원과 첨단 위험 탐지 실패와 같은 치명적인 한계를 가지고 있습니다. 뒤처진 안전성 벤치마크와 정렬(alignment) 기술로는 최첨단 AI 모델이 제기하는 복잡한 문제를 해결하기 어렵습니다. 이러한 격차를 해소하기 위해 우리는 'ForesightSafety Bench' AI 안전성 평가 프레임워크를 제안합니다. 이는 7가지 주요 기초 안전(Fundamental Safety) 기둥에서 시작하여 고급 구현 AI(Embodied AI) 안전, AI4Science 안전, 사회 및 환경적 AI 위험, 재앙적 및 실존적 위험, 그리고 8가지 핵심 산업 안전 영역으로 점진적으로 확장되어 총 94개의 세분화된 위험 차원을 형성합니다. 현재까지 이 벤치마크는 수만 개의 구조화된 위험 데이터 포인트와 평가 결과를 축적하여, 광범위하게 포괄하고 계층적으로 명확하며 동적으로 진화하는 AI 안전성 평가 프레임워크를 구축했습니다. 이 벤치마크를 기반으로 우리는 20개 이상의 주류 첨단 대형 모델에 대한 체계적인 평가와 심층 분석을 수행하여 주요 위험 패턴과 그 능력의 한계를 파악했습니다. 안전성 역량 평가 결과, 여러 기둥에 걸쳐 첨단 AI의 광범위한 안전 취약점이 드러났으며, 특히 위험한 에이전트 자율성(Risky Agentic Autonomy), AI4Science 안전, 구현 AI 안전, 사회적 AI 안전, 그리고 재앙적 및 실존적 위험에 집중되어 있습니다. 우리의 벤치마크는 https://github.com/Beijing-AISI/ForesightSafety-Bench 에 공개되어 있으며, 프로젝트 웹사이트는 https://foresightsafety-bench.beijing-aisi.ac.cn/ 에서 확인할 수 있습니다.
Rapidly evolving AI exhibits increasingly strong autonomy and goal-directed capabilities, accompanied by derivative systemic risks that are more unpredictable, difficult to control, and potentially irreversible. However, current AI safety evaluation systems suffer from critical limitations such as restricted risk dimensions and failed frontier risk detection. The lagging safety benchmarks and alignment technologies can hardly address the complex challenges posed by cutting-edge AI models. To bridge this gap, we propose the "ForesightSafety Bench" AI Safety Evaluation Framework, beginning with 7 major Fundamental Safety pillars and progressively extends to advanced Embodied AI Safety, AI4Science Safety, Social and Environmental AI risks, Catastrophic and Existential Risks, as well as 8 critical industrial safety domains, forming a total of 94 refined risk dimensions. To date, the benchmark has accumulated tens of thousands of structured risk data points and assessment results, establishing a widely encompassing, hierarchically clear, and dynamically evolving AI safety evaluation framework. Based on this benchmark, we conduct systematic evaluation and in-depth analysis of over twenty mainstream advanced large models, identifying key risk patterns and their capability boundaries. The safety capability evaluation results reveals the widespread safety vulnerabilities of frontier AI across multiple pillars, particularly focusing on Risky Agentic Autonomy, AI4Science Safety, Embodied AI Safety, Social AI Safety and Catastrophic and Existential Risks. Our benchmark is released at https://github.com/Beijing-AISI/ForesightSafety-Bench. The project website is available at https://foresightsafety-bench.beijing-aisi.ac.cn/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.