Chat2Workflow: 자연어로부터 실행 가능한 시각적 워크플로우를 생성하기 위한 벤치마크
Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language
현재, 실행 가능한 시각적 워크플로우는 높은 신뢰성과 제어성을 제공하며, 실제 산업 현장에서 널리 사용되는 주요 패러다임으로 자리 잡고 있습니다. 그러나 현재의 방식으로는 이러한 워크플로우가 거의 대부분 수동으로 설계됩니다. 개발자는 워크플로우를 신중하게 설계하고, 각 단계에 대한 프롬프트를 작성하며, 요구 사항이 변화함에 따라 로직을 반복적으로 수정해야 하므로 개발 과정은 비용이 많이 들고, 시간이 오래 걸리며, 오류가 발생하기 쉽습니다. 본 연구에서는 대규모 언어 모델이 이러한 다단계 상호 작용 프로세스를 자동화할 수 있는지 조사하기 위해, 자연어로부터 직접 실행 가능한 시각적 워크플로우를 생성하는 벤치마크인 Chat2Workflow를 소개하고, 반복적인 실행 오류를 완화하기 위한 견고한 에이전트 기반 프레임워크를 제안합니다. Chat2Workflow는 실제 비즈니스 워크플로우의 대규모 컬렉션으로 구성되어 있으며, 각 인스턴스는 생성된 워크플로우가 Dify 및 Coze와 같은 실제 워크플로우 플랫폼에 변환되어 직접 배포될 수 있도록 설계되었습니다. 실험 결과는 최첨단 언어 모델이 고수준 의도를 파악하는 데는 능숙하지만, 특히 복잡하거나 변화하는 요구 사항이 있는 경우, 정확하고 안정적이며 실행 가능한 워크플로우를 생성하는 데 어려움을 겪는다는 것을 보여줍니다. 우리의 에이전트 기반 프레임워크는 최대 5.34%의 문제 해결률 향상을 가져왔지만, 여전히 존재하는 현실적인 격차는 Chat2Workflow를 산업 수준의 자동화를 발전시키는 기반으로 자리매김하게 합니다. 코드 및 관련 자료는 https://github.com/zjunlp/Chat2Workflow 에서 확인할 수 있습니다.
At present, executable visual workflows have emerged as a mainstream paradigm in real-world industrial deployments, offering strong reliability and controllability. However, in current practice, such workflows are almost entirely constructed through manual engineering: developers must carefully design workflows, write prompts for each step, and repeatedly revise the logic as requirements evolve-making development costly, time-consuming, and error-prone. To study whether large language models can automate this multi-round interaction process, we introduce Chat2Workflow, a benchmark for generating executable visual workflows directly from natural language, and propose a robust agentic framework to mitigate recurrent execution errors. Chat2Workflow is built from a large collection of real-world business workflows, with each instance designed so that the generated workflow can be transformed and directly deployed to practical workflow platforms such as Dify and Coze. Experimental results show that while state-of-the-art language models can often capture high-level intent, they struggle to generate correct, stable, and executable workflows, especially under complex or changing requirements. Although our agentic framework yields up to 5.34% resolve rate gains, the remaining real-world gap positions Chat2Workflow as a foundation for advancing industrial-grade automation. Code is available at https://github.com/zjunlp/Chat2Workflow.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.