EnterpriseOps-Gym: 기업 환경에서의 상태 기반 에이전트 계획 및 도구 사용을 위한 환경 및 평가
EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings
대규모 언어 모델은 수동적인 정보 제공자에서 복잡한 워크플로우를 위한 능동적인 에이전트로 변화하고 있습니다. 그러나 이러한 모델을 기업 환경에서 신뢰할 수 있는 AI 작업자로 활용하는 데에는 어려움이 있는데, 이는 기존 벤치마크가 전문 환경의 복잡성을 제대로 반영하지 못하기 때문입니다. 특히, 지속적인 상태 변화와 엄격한 접근 권한 하에서 장기적인 계획 수립이 필요하지만, 이를 제대로 평가하는 벤치마크가 부족합니다. 본 연구에서는 실제 기업 환경에서의 에이전트 계획을 평가하기 위한 벤치마크인 EnterpriseOps-Gym을 소개합니다. EnterpriseOps-Gym은 164개의 데이터베이스 테이블과 512개의 기능 도구를 포함하는 컨테이너 기반 샌드박스를 제공하여 실제 환경에서의 검색의 어려움을 모방합니다. 이 환경에서 에이전트는 고객 서비스, 인사, IT 등 8가지 핵심 영역에서 1,150개의 전문가가 선별한 작업을 수행하며 평가됩니다. 14개의 최첨단 모델에 대한 평가 결과, 최상위 모델인 Claude Opus 4.5의 성공률은 37.4%에 불과하다는 비판적인 한계를 드러냅니다. 추가 분석 결과, 인간 전문가가 제공하는 계획 정보를 활용하면 성능이 14~35% 포인트 향상되는 것으로 나타났으며, 이는 전략적 추론 능력이 주요 병목 현상임을 시사합니다. 또한, 에이전트는 비실현 가능한 작업을 거부하는 데 자주 실패하며(최고 성능 모델의 경우 53.9%), 이는 의도치 않은 부작용을 초래할 수 있습니다. 이러한 결과는 현재의 에이전트가 자율적인 기업 환경에 적용될 준비가 아직 부족하다는 점을 강조합니다. 더 넓은 관점에서, EnterpriseOps-Gym은 전문 워크플로우에서 에이전트 계획의 안정성을 향상시키기 위한 구체적인 테스트 환경을 제공합니다.
Large language models are shifting from passive information providers to active agents intended for complex workflows. However, their deployment as reliable AI workers in enterprise is stalled by benchmarks that fail to capture the intricacies of professional environments, specifically, the need for long-horizon planning amidst persistent state changes and strict access protocols. In this work, we introduce EnterpriseOps-Gym, a benchmark designed to evaluate agentic planning in realistic enterprise settings. Specifically, EnterpriseOps-Gym features a containerized sandbox with 164 database tables and 512 functional tools to mimic real-world search friction. Within this environment, agents are evaluated on 1,150 expert-curated tasks across eight mission-critical verticals (including Customer Service, HR, and IT). Our evaluation of 14 frontier models reveals critical limitations in state-of-the-art models: the top-performing Claude Opus 4.5 achieves only 37.4% success. Further analysis shows that providing oracle human plans improves performance by 14-35 percentage points, pinpointing strategic reasoning as the primary bottleneck. Additionally, agents frequently fail to refuse infeasible tasks (best model achieves 53.9%), leading to unintended and potentially harmful side effects. Our findings underscore that current agents are not yet ready for autonomous enterprise deployment. More broadly, EnterpriseOps-Gym provides a concrete testbed to advance the robustness of agentic planning in professional workflows.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.