2601.20882v1 Jan 27, 2026 cs.SE

DevOps-Gym: 소프트웨어 DevOps 주기를 활용한 인공지능 에이전트 성능 평가

DevOps-Gym: Benchmarking AI Agents in Software DevOps Cycle

Zekun Li
Zekun Li
Citations: 180
h-index: 4
William Yang Wang
William Yang Wang
Citations: 3
h-index: 1
Hongwei Li
Hongwei Li
Citations: 94
h-index: 5
Kaijie Zhu
Kaijie Zhu
Citations: 56
h-index: 2
Lun Wang
Lun Wang
Citations: 2,066
h-index: 3
Yangruibo Ding
Yangruibo Ding
Citations: 11
h-index: 2
Wenbo Guo
Wenbo Guo
Citations: 82
h-index: 3
Yuheng Tang
Yuheng Tang
Citations: 65
h-index: 4
Bonan Ruan
Bonan Ruan
Citations: 66
h-index: 5
Chuqi Zhang
Chuqi Zhang
Citations: 55
h-index: 5
Michael Yang
Michael Yang
Citations: 10
h-index: 2
Suyue Guo
Suyue Guo
Citations: 10
h-index: 2
Tianneng Shi
Tianneng Shi
Citations: 293
h-index: 9
Christopher Kruegel
Christopher Kruegel
Citations: 27
h-index: 2
Giovanni Vigna
Giovanni Vigna
Citations: 98
h-index: 6
D. Song
D. Song
Citations: 129
h-index: 8
Zhenkai Liang
Zhenkai Liang
Citations: 73
h-index: 6

인공지능 에이전트는 코드 생성 및 소프트웨어 문제 해결에 뛰어난 능력을 보여주지만, 전체 소프트웨어 DevOps 주기에서의 성능은 아직 알려져 있지 않습니다. 순수한 코드 생성과 달리, 실제 소프트웨어의 DevOps 주기를 처리하려면 대규모 프로젝트 분석, 동적 프로그램 동작 이해, 도메인 특화 도구 활용, 그리고 순차적인 의사 결정을 요구합니다. 그러나 기존의 벤치마크는 개별적인 문제에 집중하고 있으며, DevOps 환경 및 도구 인터페이스를 제공하지 않습니다. 본 논문에서는 핵심 DevOps 워크플로우(빌드 및 구성, 모니터링, 문제 해결, 테스트 생성) 전반에 걸쳐 인공지능 에이전트를 평가하기 위한 최초의 통합 벤치마크인 DevOps-Gym을 소개합니다. DevOps-Gym은 Java 및 Go 언어로 작성된 30개 이상의 프로젝트에서 수집된 700개 이상의 실제 작업으로 구성되어 있습니다. 우리는 엄격하고 복잡한 전문가의 노력을 통해 작업의 범위와 품질을 보장하는 반자동 데이터 수집 메커니즘을 개발했습니다. 최첨단 모델 및 에이전트에 대한 우리의 평가는 근본적인 한계를 드러냅니다. 이들은 Java 및 Go에서 문제 해결 및 테스트 생성에 어려움을 겪으며, 모니터링 및 빌드/구성 작업과 같은 새로운 작업도 처리할 수 없습니다. 이러한 결과는 인공지능 에이전트를 활용하여 전체 DevOps 주기를 자동화하기 위한 필수적인 연구의 필요성을 강조합니다.

Original Abstract

Even though demonstrating extraordinary capabilities in code generation and software issue resolving, AI agents' capabilities in the full software DevOps cycle are still unknown. Different from pure code generation, handling the DevOps cycle in real-world software, including developing, deploying, and managing, requires analyzing large-scale projects, understanding dynamic program behaviors, leveraging domain-specific tools, and making sequential decisions. However, existing benchmarks focus on isolated problems and lack environments and tool interfaces for DevOps. We introduce DevOps-Gym, the first end-to-end benchmark for evaluating AI agents across core DevOps workflows: build and configuration, monitoring, issue resolving, and test generation. DevOps-Gym includes 700+ real-world tasks collected from 30+ projects in Java and Go. We develop a semi-automated data collection mechanism with rigorous and non-trivial expert efforts in ensuring the task coverage and quality. Our evaluation of state-of-the-art models and agents reveals fundamental limitations: they struggle with issue resolving and test generation in Java and Go, and remain unable to handle new tasks such as monitoring and build and configuration. These results highlight the need for essential research in automating the full DevOps cycle with AI agents.

2 Citations
0 Influential
4.5 Altmetric
24.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!