LinuxArena: 실시간 프로덕션 소프트웨어 환경에서 AI 에이전트를 위한 제어 환경
LinuxArena: A Control Setting for AI Agents in Live Production Software Environments
본 논문에서는 LinuxArena를 소개합니다. LinuxArena는 에이전트가 실제 운영 중인 다중 서비스 프로덕션 환경에서 직접 작동하는 제어 환경입니다. LinuxArena는 20개의 환경, 합법적인 소프트웨어 엔지니어링 작업을 나타내는 1,671개의 주요 작업, 그리고 데이터 유출 및 백도어 삽입과 같은 안전 문제를 야기하는 184개의 부가 작업을 포함하며, 이는 현재까지 소프트웨어 엔지니어링 분야에서 가장 크고 다양한 제어 환경입니다. 우리는 훼손 평가(공격자가 주요 작업을 수행하면서 부가 작업을 완료할 수 있는지 측정) 및 감시 평가(감시 모델이 훼손 시도를 감지하는 능력 측정)를 통해 LinuxArena가 제어 연구에 유용함을 검증했습니다. GPT-5-nano를 신뢰할 수 있는 감시 모델로 사용하고 1%의 단계별 오탐율을 기준으로, Claude Opus 4.6는 약 23%의 감지되지 않은 훼손 성공률을 보였습니다. 또한, 우리는 인간이 설계한 공격 경로 데이터셋인 LaStraj를 공개합니다. LaStraj는 우리가 생성한 모델 기반 공격보다 훨씬 높은 비율로 감시 시스템을 회피하며, 이는 현재의 공격 정책이 LinuxArena의 잠재력을 완전히 활용하지 못하고 있음을 보여줍니다. 이러한 결과는 LinuxArena가 공격자와 방어자 모두에게 의미 있는 발전 가능성을 제공하며, 향후 제어 프로토콜을 개발하고 평가하기 위한 강력한 테스트 환경임을 시사합니다.
We introduce LinuxArena, a control setting in which agents operate directly on live, multi-service production environments. LinuxArena contains 20 environments, 1,671 main tasks representing legitimate software engineering work, and 184 side tasks representing safety failures such as data exfiltration and backdooring, making it the largest and most diverse control setting for software engineering to date. We validate LinuxArena is useful for control research by running sabotage evaluations, which measure whether attackers can complete side tasks while working on main tasks, and monitor evaluations, which measure a monitor model's ability to detect sabotage attempts. Against a GPT-5-nano trusted monitor at a 1\% step-wise false positive rate, Claude Opus 4.6 achieves roughly a 23% undetected sabotage success rate. We additionally release LaStraj, a dataset of human-crafted attack trajectories that evade monitors at substantially higher rates than any model-generated attacks we elicited, showing that current attack policies do not saturate LinuxArena. These results suggest that LinuxArena has meaningful headroom for both attackers and defenders, making it a strong testbed for developing and evaluating future control protocols.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.