인공지능 에이전트에 대한 보안 고려 사항
Security Considerations for Artificial Intelligence Agents
본 논문은 Perplexity가 NIST/CAISI 요청 정보 2025-0035에 응답한 내용을 일부 수정 및 보완한 것으로, 최첨단 인공지능 에이전트의 보안에 대한 우리의 관찰 및 권장 사항을 상세히 설명합니다. 이러한 통찰력은 Perplexity가 수백만 명의 사용자 및 수천 개의 기업이 사용하는 범용 에이전트 시스템을 제어된 환경과 개방형 환경 모두에서 운영하면서 얻은 경험을 바탕으로 합니다. 에이전트 아키텍처는 코드-데이터 분리, 권한 경계, 실행 예측 가능성에 대한 근본적인 전제를 변경하여 새로운 기밀성, 무결성 및 가용성 실패 모드를 야기합니다. 본 연구에서는 도구, 연결, 호스팅 경계 및 다중 에이전트 조정 전반에 걸쳐 주요 공격 표면을 분석하고, 특히 간접 프롬프트 주입, 혼란스러운 대리인 행동, 그리고 장기 실행 워크플로우에서의 연쇄적인 실패에 중점을 둡니다. 또한, 현재의 방어 메커니즘을 입력 레벨 및 모델 레벨의 완화, 샌드박스 실행, 그리고 중요 행위에 대한 결정적 정책 강제라는 계층적 구조로 평가합니다. 마지막으로, 적응형 보안 벤치마크, 위임 및 권한 제어를 위한 정책 모델, NIST 위험 관리 원칙에 부합하는 안전한 다중 에이전트 시스템 설계에 대한 지침을 포함하여 표준 및 연구 격차를 식별합니다.
This article, a lightly adapted version of Perplexity's response to NIST/CAISI Request for Information 2025-0035, details our observations and recommendations concerning the security of frontier AI agents. These insights are informed by Perplexity's experience operating general-purpose agentic systems used by millions of users and thousands of enterprises in both controlled and open-world environments. Agent architectures change core assumptions around code-data separation, authority boundaries, and execution predictability, creating new confidentiality, integrity, and availability failure modes. We map principal attack surfaces across tools, connectors, hosting boundaries, and multi-agent coordination, with particular emphasis on indirect prompt injection, confused-deputy behavior, and cascading failures in long-running workflows. We then assess current defenses as a layered stack: input-level and model-level mitigations, sandboxed execution, and deterministic policy enforcement for high-consequence actions. Finally, we identify standards and research gaps, including adaptive security benchmarks, policy models for delegation and privilege control, and guidance for secure multi-agent system design aligned with NIST risk management principles.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.