2602.14457v1 Feb 16, 2026 cs.AI

실무에서의 프런티어 AI 위험 관리 프레임워크: 위험 분석 기술 보고서 v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Shuai Shao
Shuai Shao
Citations: 23
h-index: 2
Yu Li
Yu Li
Citations: 2
h-index: 1
Peng Wang
Peng Wang
Citations: 8
h-index: 1
Guanxu Chen
Guanxu Chen
Citations: 51
h-index: 4
Qihao Lin
Qihao Lin
Citations: 8
h-index: 1
Jiaxuan Guo
Jiaxuan Guo
Citations: 27
h-index: 3
Chaochao Lu
Chaochao Lu
Citations: 27
h-index: 3
Jie Zhang
Jie Zhang
Citations: 7
h-index: 1
Yijin Zhou
Yijin Zhou
Citations: 8
h-index: 1
Dongrui Liu
Dongrui Liu
Citations: 2
h-index: 1
Jing Shao
Jing Shao
Citations: 8
h-index: 1
Yi Yu
Yi Yu
Citations: 25
h-index: 2
Han Zhu
Han Zhu
Citations: 57
h-index: 5
Lige Huang
Lige Huang
Citations: 8
h-index: 1
Zi-de Liu
Zi-de Liu
Citations: 12
h-index: 2
Jingwei Sun
Jingwei Sun
Citations: 1,552
h-index: 17
Yu Xie
Yu Xie
Citations: 25
h-index: 1
Jia Xu
Jia Xu
Citations: 7
h-index: 1
Bo Zhou
Bo Zhou
Citations: 8
h-index: 1
Xia Hu
Xia Hu
Citations: 0
h-index: 0
Boxuan Zhang
Boxuan Zhang
Citations: 43
h-index: 5

급속히 발전하는 인공지능(AI) 모델이 초래하는 전례 없는 위험을 이해하고 식별하기 위해, '실무에서의 프런티어 AI 위험 관리 프레임워크'는 프런티어 위험에 대한 포괄적인 평가를 제시합니다. 대규모 언어 모델(LLM)의 일반적인 능력이 급격히 진화하고 에이전트형 AI가 확산됨에 따라, 이번 버전의 위험 분석 기술 보고서는 사이버 공격, 설득 및 조작, 전략적 기만, 통제되지 않은 AI R&D, 자기 복제라는 5가지 핵심 차원에 대해 업데이트되고 세분화된 평가를 제시합니다. 구체적으로 사이버 공격에 대해서는 더 복잡한 시나리오를 도입했습니다. 설득 및 조작에 대해서는 새로 출시된 LLM을 대상으로 LLM 간(LLM-to-LLM) 설득 위험을 평가했습니다. 전략적 기만 및 책략(scheming)에 대해서는 창발적 정렬 불일치(emergent misalignment)에 관한 새로운 실험을 추가했습니다. 통제되지 않은 AI R&D에 대해서는 에이전트가 자율적으로 메모리 기반과 도구 세트를 확장함에 따라 발생하는 '오진화(mis-evolution)'에 초점을 맞췄습니다. 또한 몰트북(Moltbook)에서의 상호작용 중 오픈클로(OpenClaw)의 안전 성능을 모니터링하고 평가했습니다. 자기 복제에 대해서는 자원이 제약된 새로운 시나리오를 도입했습니다. 무엇보다 중요한 점은 이러한 새로운 위협에 대처하기 위해 일련의 강력한 완화 전략을 제안하고 검증하여, 프런티어 AI의 안전한 배포를 위한 기술적이고 실행 가능한 예비 경로를 제공한다는 것입니다. 이 연구는 AI 프런티어 위험에 대한 현재의 이해를 반영하며, 이러한 도전을 완화하기 위한 공동의 조치를 촉구합니다.

Original Abstract

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!