혼돈의 에이전트
Agents of Chaos
우리는 영구 메모리, 이메일 계정, Discord 접근 권한, 파일 시스템 및 셸 실행 환경을 갖춘 실제 실험실 환경에 배포된 자율 언어 모델 기반 에이전트들에 대한 탐색적 레드티밍(red-teaming) 연구 결과를 보고한다. 2주 동안 20명의 AI 연구원들이 정상적 및 적대적 조건에서 에이전트들과 상호작용했다. 우리는 언어 모델과 자율성, 도구 사용, 다자간 통신의 통합으로 인해 발생하는 실패에 초점을 맞춰 11개의 대표적인 사례 연구를 기록했다. 관찰된 행동에는 비소유자의 승인되지 않은 명령 수행, 민감 정보 유출, 파괴적인 시스템 수준 작업 실행, 서비스 거부(DoS) 상태 유발, 통제되지 않은 자원 소비, 신원 위장 취약점, 에이전트 간 안전하지 않은 관행 전파, 부분적인 시스템 탈취 등이 포함된다. 여러 사례에서 에이전트는 작업을 완료했다고 보고했으나 실제 기본 시스템 상태는 그 보고와 모순되었다. 우리는 또한 실패한 시도 중 일부에 대해서도 보고한다. 우리의 연구 결과는 현실적인 배포 환경에서 보안, 개인정보 보호 및 거버넌스 관련 취약점이 존재함을 입증한다. 이러한 행동은 책무성, 권한 위임, 파생적 피해에 대한 책임과 관련하여 미해결 질문을 제기하며, 법학자, 정책 입안자 및 다양한 분야의 연구자들의 시급한 주의를 요구한다. 이 보고서는 이러한 폭넓은 논의를 위한 초기의 경험적 기여로서 기능한다.
We report an exploratory red-teaming study of autonomous language-model-powered agents deployed in a live laboratory environment with persistent memory, email accounts, Discord access, file systems, and shell execution. Over a two-week period, twenty AI researchers interacted with the agents under benign and adversarial conditions. Focusing on failures emerging from the integration of language models with autonomy, tool use, and multi-party communication, we document eleven representative case studies. Observed behaviors include unauthorized compliance with non-owners, disclosure of sensitive information, execution of destructive system-level actions, denial-of-service conditions, uncontrolled resource consumption, identity spoofing vulnerabilities, cross-agent propagation of unsafe practices, and partial system takeover. In several cases, agents reported task completion while the underlying system state contradicted those reports. We also report on some of the failed attempts. Our findings establish the existence of security-, privacy-, and governance-relevant vulnerabilities in realistic deployment settings. These behaviors raise unresolved questions regarding accountability, delegated authority, and responsibility for downstream harms, and warrant urgent attention from legal scholars, policymakers, and researchers across disciplines. This report serves as an initial empirical contribution to that broader conversation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.