2602.17990v1 Feb 20, 2026 cs.AI

WorkflowPerturb: 다중 에이전트 워크플로우 평가 지표를 위한 보정된 스트레스 테스트

WorkflowPerturb: Calibrated Stress Tests for Evaluating Multi-Agent Workflow Metrics

Madhav Kanda
Madhav Kanda
Citations: 11
h-index: 2
P. Las-Casas
P. Las-Casas
Citations: 360
h-index: 9
A. Kumbhare
A. Kumbhare
Citations: 1,078
h-index: 16
Rodrigo Fonseca
Rodrigo Fonseca
Citations: 160
h-index: 4
Sharad Agarwal
Sharad Agarwal
Citations: 42
h-index: 2

LLM 기반 시스템은 복잡한 작업을 위해 구조화된 워크플로우를 점점 더 많이 생성하고 있습니다. 실제 환경에서 이러한 워크플로우를 자동으로 평가하는 것은 어려운데, 평가 지표 점수가 보정되지 않은 경우가 많고 점수 변화가 워크플로우 성능 저하의 심각도를 직접적으로 나타내지 못하기 때문입니다. 우리는 워크플로우 평가 지표를 연구하기 위한 통제된 벤치마크인 WorkflowPerturb를 제안합니다. 이는 정답(golden) 워크플로우에 현실적이고 통제된 교란(perturbation)을 가하는 방식으로 작동합니다. WorkflowPerturb는 4,973개의 정답 워크플로우와 세 가지 교란 유형(단계 누락, 단계 압축, 설명 변경)에 걸친 44,757개의 교란 변형을 포함하며, 각각 10%, 30%, 50%의 심각도 수준으로 적용되었습니다. 우리는 여러 지표 군(metric families)을 벤치마킹하고, 예상 점수 궤적과 잔차를 활용하여 이들의 민감도와 보정 상태를 분석합니다. 우리의 연구 결과는 지표 군 간의 체계적인 차이를 규명하고, 심각도를 고려한 워크플로우 평가 점수 해석을 지원합니다. 구축된 데이터셋은 논문 채택 시 공개될 예정입니다.

Original Abstract

LLM-based systems increasingly generate structured workflows for complex tasks. In practice, automatic evaluation of these workflows is difficult, because metric scores are often not calibrated, and score changes do not directly communicate the severity of workflow degradation. We introduce WorkflowPerturb, a controlled benchmark for studying workflow evaluation metrics. It works by applying realistic, controlled perturbations to golden workflows. WorkflowPerturb contains 4,973 golden workflows and 44,757 perturbed variants across three perturbation types (Missing Steps, Compressed Steps, and Description Changes), each applied at severity levels of 10%, 30%, and 50%. We benchmark multiple metric families and analyze their sensitivity and calibration using expected score trajectories and residuals. Our results characterize systematic differences across metric families and support severity-aware interpretation of workflow evaluation scores. Our dataset will be released upon acceptance.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!