SREGym: 고정밀 오류 시나리오를 갖춘 AI 기반 SRE 에이전트의 실시간 벤치마크
SREGym: A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios
AI 에이전트는 생산 시스템의 장애를 진단하고 해결하는 데 점점 더 많이 사용되고 있으며, 이를 에이전트 기반 사이트 안정성 엔지니어링(SRE)이라고 합니다. 현재의 SRE 벤치마크는 지나치게 단순화된 SRE 작업에 국한되어 있으며, 맞춤형 설계로 인해 확장하기 어렵다는 단점이 있습니다. 본 연구에서는 SRE 에이전트를 위한 고정밀 벤치마크인 SREGym을 제시합니다. SREGym은 실제 클라우드 네이티브 시스템 스택을 기반으로 구축된 실시간 시스템 환경을 제공하며, 결함 주입기를 통해 고정밀 오류 시나리오를 시뮬레이션합니다. SREGym은 생산 환경의 복잡성을 모델링하기 위해 (1) 다양한 계층에서 발생하는 광범위한 오류, (2) 다양한 노이즈, (3) 금속성 오류 및 상관 관계 오류와 같은 다양한 오류 모드를 시뮬레이션합니다. SREGym은 모듈화되고 확장 가능한 프레임워크로 설계되어, 스택 전반에 걸쳐 결함 및 노이즈 주입기를 조정합니다. SREGym은 현재 90개의 현실적이고 도전적인 SRE 문제를 포함하고 있습니다. SREGym을 사용하여 최첨단 에이전트를 평가한 결과, 다양한 유형의 오류에 대한 에이전트의 기능이 크게 다르며, 최종 결과에서 최대 40%의 차이가 나타났습니다. SREGym은 오픈 소스 프로젝트로 활발하게 유지 관리되고 있으며, 연구자와 실무자들에 의해 사용되고 있습니다.
AI agents are increasingly used to diagnose and mitigate failures in production systems, known as agentic Site Reliability Engineering (SRE). Current SRE benchmarks are limited to oversimplistic SRE tasks and are unfortunately hard to extend due to bespoke designs. We present SREGym, a high-fidelity benchmark for SRE agents. SREGym exposes a live system environment built atop real-world cloud-native system stacks, where high-fidelity failure scenarios are simulated through fault injectors. SREGym models the complexity of production environments by simulating (1) a wide range of faults at different layers, (2) various ambient noises, and (3) diverse failure modes such as metastable failures and correlated failures. SREGym is architected as a modular, extensible framework that orchestrates fault and noise injectors across stacks. SREGym currently includes 90 realistic, challenging SRE problems. We use SREGym to evaluate frontier agents and show that their capabilities varies significantly in addressing different kinds of failures, with up to 40% differences in end-to-end results. SREGym is actively maintained as an open-source project and has been used by researchers and practitioners.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.