2601.22130v2 Jan 29, 2026 cs.AI

워크플로우의 세계: 엔터프라이즈 시스템에 세계 모델을 적용하기 위한 벤치마크

World of Workflows: A Benchmark for Bringing World Models to Enterprise Systems

Sriram Ganapathi Subramanian
Sriram Ganapathi Subramanian
University of Waterloo
Citations: 1,145
h-index: 13
Kaheer Suleman
Kaheer Suleman
Citations: 93
h-index: 5
Haoye Lu
Haoye Lu
Citations: 6
h-index: 1
Sumit Pasupalak
Sumit Pasupalak
Citations: 6
h-index: 1
Lakshya Gupta
Lakshya Gupta
Citations: 13
h-index: 2
Yizhe Liu
Yizhe Liu
Citations: 37
h-index: 4
Zichen Zhang
Zichen Zhang
Citations: 704
h-index: 6
Litao Li
Litao Li
Citations: 10
h-index: 2

최첨단 대규모 언어 모델(LLM)은 여러 분야에서 자율 에이전트로 뛰어난 성능을 보이지만, 복잡한 엔터프라이즈 시스템에서는 숨겨진 워크플로우가 상호 연결된 데이터베이스에 걸쳐 연쇄적인 영향을 미치므로 아직 제대로 검증되지 않았습니다. 기존의 엔터프라이즈 벤치마크는 일반적인 소비자 벤치마크와 유사한 표면적인 에이전트 작업 완료를 평가하며, 엔터프라이즈 환경의 실제적인 어려움, 즉 제한적인 관찰 가능성, 방대한 데이터베이스 상태, 그리고 연쇄적인 부작용을 가진 숨겨진 워크플로우를 간과합니다. 우리는 4,000개 이상의 비즈니스 규칙과 55개의 활성 워크플로우가 내장된 현실적인 ServiceNow 기반 환경인 World of Workflows (WoW)와 함께, 제한된 에이전트 작업 완료 및 엔터프라이즈 역학 모델링 능력을 평가하는 234개의 작업으로 구성된 벤치마크인 WoW-bench를 소개합니다. 우리는 다음과 같은 두 가지 주요 결과를 밝히고자 합니다. (1) 최첨단 LLM은 시스템의 역학에 대한 이해 부족으로 인해, 자신의 행동으로 인해 발생하는 보이지 않는 연쇄적인 부작용을 예측하는 데 지속적으로 실패하며, 이는 잠재적인 제약 위반으로 이어집니다. (2) 불투명한 시스템에서의 신뢰성은 근거 있는 세계 모델링을 필요로 하며, 에이전트는 고정밀 피드백이 없을 때 관찰 가능성의 격차를 해소하기 위해 숨겨진 상태 변화를 정신적으로 시뮬레이션해야 합니다. 신뢰할 수 있고 유용한 엔터프라이즈 에이전트를 개발하기 위해서는 WoW가 시스템 역학을 명시적으로 학습하는 새로운 패러다임을 제시합니다. WoW를 설정하고 평가할 수 있는 GitHub 저장소를 공개합니다.

Original Abstract

Frontier large language models (LLMs) excel as autonomous agents in many domains, yet they remain untested in complex enterprise systems where hidden workflows create cascading effects across interconnected databases. Existing enterprise benchmarks evaluate surface-level agentic task completion similar to general consumer benchmarks, ignoring true challenges in enterprises, such as limited observability, large database state, and hidden workflows with cascading side effects. We introduce World of Workflows (WoW), a realistic ServiceNow-based environment incorporating 4,000+ business rules and 55 active workflows embedded in the system, alongside WoW-bench, a benchmark of 234 tasks evaluating constrained agentic task completion and enterprise dynamics modeling capabilities. We reveal two major takeaways: (1) Frontier LLMs suffer from dynamics blindness, consistently failing to predict the invisible, cascading side effects of their actions, which leads to silent constraint violations, and (2) reliability in opaque systems requires grounded world modeling, where agents must mentally simulate hidden state transitions to bridge the observability gap when high-fidelity feedback is unavailable. For reliable and useful enterprise agents, WoW motivates a new paradigm to explicitly learn system dynamics. We release our GitHub for setting up and evaluating WoW.

6 Citations
2 Influential
6.5 Altmetric
42.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!