기초 모델 시대의 인공지능 보안: 통합적 관점에서의 종합적인 연구
AI Security in the Foundation Model Era: A Comprehensive Survey from a Unified Perspective
머신러닝(ML) 시스템이 규모와 기능 면에서 확장됨에 따라, 공격과 방어 기술이 증가하면서 보안 환경은 점점 더 복잡해지고 있습니다. 그러나 기존 연구들은 이러한 위협들을 개별적으로 다루는 경향이 있으며, 이들의 공통 원리와 상호 의존성을 명확하게 보여주는 일관된 프레임워크가 부족합니다. 이러한 단편적인 관점은 체계적인 이해를 방해하고 포괄적인 방어 설계 능력을 제한합니다. 특히, 머신러닝의 두 가지 핵심 자산인 데이터와 모델은 더 이상 독립적이지 않으며, 한 곳의 취약점은 다른 곳에 직접적인 영향을 미칩니다. 이러한 통합적인 프레임워크의 부재는 데이터와 모델 간의 양방향 위험이 머신러닝 파이프라인 전체에 어떻게 전파되는지에 대한 질문을 남깁니다. 이러한 중요한 격차를 해소하기 위해, 우리는 모델-데이터 상호 작용을 네 가지 방향 축을 통해 명시적으로 규정하는 '통합 폐쇄 루프 위협 분류 체계'를 제안합니다. 우리의 프레임워크는 기초 모델을 분석하고 방어하는 데 유용한 원칙적인 관점을 제공합니다. 결과적으로 도출된 네 가지 보안 위협 유형은 서로 구별되지만 밀접하게 관련된 공격 범주를 나타냅니다. (1) 데이터→데이터(D→D): 데이터 암호 해제 공격 및 워터마크 제거 공격 등을 포함합니다. (2) 데이터→모델(D→M): 데이터 포이즈닝, 악의적인 미세 조정 공격 및 탈옥 공격 등을 포함합니다. (3) 모델→데이터(M→D): 모델 역공학, 멤버십 추론 공격 및 학습 데이터 추출 공격 등을 포함합니다. (4) 모델→모델(M→M): 모델 추출 공격 등을 포함합니다. 우리의 통합 프레임워크는 이러한 보안 위협 간의 근본적인 연결 관계를 명확히 하고, 특히 기초 모델 환경에서 확장 가능하고, 전송 가능하며, 다양한 모달리티에 적용 가능한 보안 전략을 개발하기 위한 기반을 마련합니다.
As machine learning (ML) systems expand in both scale and functionality, the security landscape has become increasingly complex, with a proliferation of attacks and defenses. However, existing studies largely treat these threats in isolation, lacking a coherent framework to expose their shared principles and interdependencies. This fragmented view hinders systematic understanding and limits the design of comprehensive defenses. Crucially, the two foundational assets of ML -- \textbf{data} and \textbf{models} -- are no longer independent; vulnerabilities in one directly compromise the other. The absence of a holistic framework leaves open questions about how these bidirectional risks propagate across the ML pipeline. To address this critical gap, we propose a \emph{unified closed-loop threat taxonomy} that explicitly frames model-data interactions along four directional axes. Our framework offers a principled lens for analyzing and defending foundation models. The resulting four classes of security threats represent distinct but interrelated categories of attacks: (1) Data$\rightarrow$Data (D$\rightarrow$D): including \emph{data decryption attacks and watermark removal attacks}; (2) Data$\rightarrow$Model (D$\rightarrow$M): including \emph{poisoning, harmful fine-tuning attacks, and jailbreak attacks}; (3) Model$\rightarrow$Data (M$\rightarrow$D): including \emph{model inversion, membership inference attacks, and training data extraction attacks}; (4) Model$\rightarrow$Model (M$\rightarrow$M): including \emph{model extraction attacks}. Our unified framework elucidates the underlying connections among these security threats and establishes a foundation for developing scalable, transferable, and cross-modal security strategies, particularly within the landscape of foundation models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.