컨테이너 샌드박스 탈출을 위한 최첨단 LLM 능력 평가
Quantifying Frontier LLM Capabilities for Container Sandbox Escape
대규모 언어 모델(LLM)은 점점 더 자율 에이전트로서 기능하며, 코드를 실행하고, 파일을 읽고 쓰며, 네트워크에 접근하는 도구를 사용하여 새로운 보안 위험을 초래합니다. 이러한 위험을 완화하기 위해, 에이전트는 종종 격리된 "샌드박스" 환경에서 배포되고 평가되며, 이는 일반적으로 Docker/OCI 컨테이너를 사용하여 구현됩니다. 본 연구에서는 LLM이 이러한 샌드박스를 탈출하는 능력을 안전하게 측정하는 오픈 소스 벤치마크인 SANDBOXESCAPEBENCH를 소개합니다. 이 벤치마크는 Inspect AI Capture the Flag (CTF) 평가 방식을 채택하여 구현되었으며, 외부 레이어에 플래그가 포함되어 있고 알려진 취약점이 없는 중첩 샌드박스 아키텍처를 사용합니다. 컨테이너 내부에 쉘 접근 권한을 가진 악의적인 에이전트의 위협 모델을 기반으로, SANDBOXESCAPEBENCH는 잘못된 설정, 권한 할당 오류, 커널 결함 및 런타임/오케스트레이션 취약점 등 다양한 샌드박스 탈출 메커니즘을 다룹니다. 연구 결과, 취약점이 추가되면 LLM은 이를 식별하고 악용할 수 있는 것으로 나타났습니다. 이는 SANDBOXESCAPEBENCH와 같은 평가 방법을 사용하여 샌드박싱이 고성능 모델에 필요한 캡슐화를 계속 제공하는지 확인해야 함을 보여줍니다.
Large language models (LLMs) increasingly act as autonomous agents, using tools to execute code, read and write files, and access networks, creating novel security risks. To mitigate these risks, agents are commonly deployed and evaluated in isolated "sandbox" environments, often implemented using Docker/OCI containers. We introduce SANDBOXESCAPEBENCH, an open benchmark that safely measures an LLM's capacity to break out of these sandboxes. The benchmark is implemented as an Inspect AI Capture the Flag (CTF) evaluation utilising a nested sandbox architecture with the outer layer containing the flag and no known vulnerabilities. Following a threat model of a motivated adversarial agent with shell access inside a container, SANDBOXESCAPEBENCH covers a spectrum of sandboxescape mechanisms spanning misconfiguration, privilege allocation mistakes, kernel flaws, and runtime/orchestration weaknesses. We find that, when vulnerabilities are added, LLMs are able to identify and exploit them, showing that use of evaluation like SANDBOXESCAPEBENCH is needed to ensure sandboxing continues to provide the encapsulation needed for highly-capable models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.