World of Workflows: 월드 모델을 엔터프라이즈 시스템에 도입하기 위한 벤치마크
World of Workflows: a Benchmark for Bringing World Models to Enterprise Systems
최첨단 거대언어모델(LLM)은 여러 도메인에서 자율 에이전트로서 탁월한 성능을 보이지만, 숨겨진 워크플로우가 상호 연결된 데이터베이스 전반에 걸쳐 연쇄적인 효과를 일으키는 복잡한 엔터프라이즈 시스템에서는 아직 검증되지 않았습니다. 기존의 엔터프라이즈 벤치마크는 일반 소비자용 벤치마크와 유사하게 표면적인 에이전트 작업 완료 여부만 평가하며, 제한된 관측 가능성, 방대한 데이터베이스 상태, 연쇄적 부작용을 동반하는 숨겨진 워크플로우와 같은 기업 환경의 실질적인 과제들은 간과하고 있습니다. 이에 우리는 시스템에 내장된 4,000개 이상의 비즈니스 규칙과 55개의 활성 워크플로우를 포함하는 현실적인 ServiceNow 기반 환경인 World of Workflows (WoW)를 소개하고, 제약 조건 하에서의 에이전트 작업 수행 및 엔터프라이즈 동역학 모델링 능력을 평가하는 234개 작업으로 구성된 벤치마크인 WoW-bench를 함께 제안합니다. 연구 결과 두 가지 주요 시사점을 도출했습니다. (1) 최첨단 LLM들은 '동역학적 맹점(dynamics blindness)'을 겪고 있어 자신의 행동이 초래하는 보이지 않는 연쇄적 부작용을 일관되게 예측하지 못하며, 이는 인지하지 못한 제약 조건 위반으로 이어집니다. (2) 불투명한 시스템에서 신뢰성을 확보하기 위해서는 '근거 있는 월드 모델링(grounded world modeling)'이 필요합니다. 즉, 고충실도 피드백을 이용할 수 없을 때 에이전트가 관측 가능성의 간극을 메우기 위해 숨겨진 상태 전이를 내부적으로 시뮬레이션해야 합니다. 신뢰할 수 있고 유용한 엔터프라이즈 에이전트 개발을 위해, WoW는 시스템 동역학을 명시적으로 학습하는 새로운 패러다임을 제시합니다. WoW의 설정 및 평가를 위한 GitHub 저장소를 공개합니다.
Frontier large language models (LLMs) excel as autonomous agents in many domains, yet they remain untested in complex enterprise systems where hidden workflows create cascading effects across interconnected databases. Existing enterprise benchmarks evaluate surface-level agentic task completion similar to general consumer benchmarks, ignoring true challenges in enterprises, such as limited observability, large database state, and hidden workflows with cascading side effects. We introduce World of Workflows (WoW), a realistic ServiceNow-based environment incorporating 4,000+ business rules and 55 active workflows embedded in the system, alongside WoW-bench, a benchmark of 234 tasks evaluating constrained agentic task completion and enterprise dynamics modeling capabilities. We reveal two major takeaways: (1) Frontier LLMs suffer from dynamics blindness, consistently failing to predict the invisible, cascading side effects of their actions, which leads to silent constraint violations, and (2) reliability in opaque systems requires grounded world modeling, where agents must mentally simulate hidden state transitions to bridge the observability gap when high-fidelity feedback is unavailable. For reliable and useful enterprise agents, WoW motivates a new paradigm to explicitly learn system dynamics. We release our GitHub for setting up and evaluating WoW.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.