2604.15384v1 Apr 16, 2026 cs.CR

LinuxArena: 실시간 프로덕션 소프트웨어 환경에서 AI 에이전트를 위한 제어 환경

LinuxArena: A Control Setting for AI Agents in Live Production Software Environments

Tyler Tracy
Tyler Tracy
Citations: 96
h-index: 5
Ram Potham
Ram Potham
Citations: 13
h-index: 2
N. Kuhn
N. Kuhn
Citations: 1
h-index: 1
M. Heller
M. Heller
Citations: 0
h-index: 0
Anshul Khandelwal
Anshul Khandelwal
Citations: 10
h-index: 2
Cody Rushing
Cody Rushing
Citations: 38
h-index: 3
H. Lemoine
H. Lemoine
Citations: 3
h-index: 1
Miguel Brandão
Miguel Brandão
Citations: 20
h-index: 3
Tomáš Turlík
Tomáš Turlík
Citations: 1
h-index: 1
Adam Hanson
Adam Hanson
Citations: 0
h-index: 0
Joshua Hills
Joshua Hills
Citations: 76
h-index: 3
A. Ngo
A. Ngo
Citations: 112
h-index: 2
Ram Rachum
Ram Rachum
University of California, Berkeley
Citations: 17
h-index: 2
Nik Mitchell
Nik Mitchell
Citations: 4
h-index: 1
Falko Galperin
Falko Galperin
Citations: 4
h-index: 1
O. Sykes
O. Sykes
Citations: 260
h-index: 4
Pip Arnott
Pip Arnott
Citations: 11
h-index: 1
Samuel Prieto Lima
Samuel Prieto Lima
Citations: 0
h-index: 0
Carlos Giudice
Carlos Giudice
Citations: 0
h-index: 0
Matthew Goldwater
Matthew Goldwater
Citations: 3
h-index: 1
D. Popp
D. Popp
Citations: 0
h-index: 0
Drew de Wet
Drew de Wet
Citations: 0
h-index: 0
R. Castaing
R. Castaing
Citations: 0
h-index: 0
Qiaoyu Guo
Qiaoyu Guo
Citations: 1
h-index: 1
Douw Marx
Douw Marx
Citations: 13
h-index: 2
Benjamin Shaffrey
Benjamin Shaffrey
Citations: 0
h-index: 0
Justin Shenk
Justin Shenk
Citations: 67
h-index: 4
Martin Milbradt
Martin Milbradt
Citations: 0
h-index: 0
H. Meagher
H. Meagher
Citations: 1
h-index: 1
Shaheen Ahmed-Chowdhury
Shaheen Ahmed-Chowdhury
Citations: 0
h-index: 0
D. O’Connell
D. O’Connell
Citations: 52
h-index: 4
C. Cañal
C. Cañal
Citations: 11
h-index: 1
Buck Shlegeris
Buck Shlegeris
Citations: 2,830
h-index: 18
Aryan Bhatt
Aryan Bhatt
Citations: 70
h-index: 4

본 논문에서는 LinuxArena를 소개합니다. LinuxArena는 에이전트가 실제 운영 중인 다중 서비스 프로덕션 환경에서 직접 작동하는 제어 환경입니다. LinuxArena는 20개의 환경, 합법적인 소프트웨어 엔지니어링 작업을 나타내는 1,671개의 주요 작업, 그리고 데이터 유출 및 백도어 삽입과 같은 안전 문제를 야기하는 184개의 부가 작업을 포함하며, 이는 현재까지 소프트웨어 엔지니어링 분야에서 가장 크고 다양한 제어 환경입니다. 우리는 훼손 평가(공격자가 주요 작업을 수행하면서 부가 작업을 완료할 수 있는지 측정) 및 감시 평가(감시 모델이 훼손 시도를 감지하는 능력 측정)를 통해 LinuxArena가 제어 연구에 유용함을 검증했습니다. GPT-5-nano를 신뢰할 수 있는 감시 모델로 사용하고 1%의 단계별 오탐율을 기준으로, Claude Opus 4.6는 약 23%의 감지되지 않은 훼손 성공률을 보였습니다. 또한, 우리는 인간이 설계한 공격 경로 데이터셋인 LaStraj를 공개합니다. LaStraj는 우리가 생성한 모델 기반 공격보다 훨씬 높은 비율로 감시 시스템을 회피하며, 이는 현재의 공격 정책이 LinuxArena의 잠재력을 완전히 활용하지 못하고 있음을 보여줍니다. 이러한 결과는 LinuxArena가 공격자와 방어자 모두에게 의미 있는 발전 가능성을 제공하며, 향후 제어 프로토콜을 개발하고 평가하기 위한 강력한 테스트 환경임을 시사합니다.

Original Abstract

We introduce LinuxArena, a control setting in which agents operate directly on live, multi-service production environments. LinuxArena contains 20 environments, 1,671 main tasks representing legitimate software engineering work, and 184 side tasks representing safety failures such as data exfiltration and backdooring, making it the largest and most diverse control setting for software engineering to date. We validate LinuxArena is useful for control research by running sabotage evaluations, which measure whether attackers can complete side tasks while working on main tasks, and monitor evaluations, which measure a monitor model's ability to detect sabotage attempts. Against a GPT-5-nano trusted monitor at a 1\% step-wise false positive rate, Claude Opus 4.6 achieves roughly a 23% undetected sabotage success rate. We additionally release LaStraj, a dataset of human-crafted attack trajectories that evade monitors at substantially higher rates than any model-generated attacks we elicited, showing that current attack policies do not saturate LinuxArena. These results suggest that LinuxArena has meaningful headroom for both attackers and defenders, making it a strong testbed for developing and evaluating future control protocols.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!