Claw-Eval-Live: 실시간 에이전트 벤치마크 - 진화하는 실제 워크플로우에 대한 평가
Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
LLM 에이전트는 소프트웨어 도구, 비즈니스 서비스 및 로컬 작업 공간을 넘나들며 전체 작업 단위를 수행할 것으로 예상됩니다. 그러나 많은 에이전트 벤치마크는 미리 정의된 작업 세트를 출시 시점에 고정하고 주로 최종 응답만 평가하여, 에이전트가 변화하는 워크플로우 요구 사항에 얼마나 잘 부합하는지 평가하거나 작업이 실제로 실행되었는지 확인하기 어렵습니다. 우리는 워크플로우 에이전트를 위한 실시간 벤치마크인 Claw-Eval-Live를 소개합니다. Claw-Eval-Live는 공개된 워크플로우 요구 사항 신호로 업데이트되는 변경 가능한 신호 계층과, 재현 가능하고 타임스탬프가 찍힌 릴리스 스냅샷을 분리합니다. 각 릴리스는 공개된 워크플로우 요구 사항 신호로 구성되며, 현재 릴리스에서는 ClawHub Top-500 기술이 사용됩니다. 그리고 각 릴리스는 고정된 환경, 서비스, 작업 공간 및 평가 도구를 갖춘 제어된 작업으로 구현됩니다. Claw-Eval-Live는 평가를 위해 실행 추적, 감사 로그, 서비스 상태 및 실행 후 작업 공간 아티팩트를 기록하며, 증거가 충분한 경우에는 결정적인 확인을 사용하고, 의미론적 측면에 대해서는 구조화된 LLM 판단을 사용합니다. 릴리스에는 제어된 비즈니스 서비스 및 로컬 작업 공간 복구 작업을 포함하는 105개의 작업이 포함되어 있으며, 13개의 최첨단 모델을 공통된 공개 통과 규칙 하에서 평가합니다. 실험 결과, 안정적인 워크플로우 자동화는 아직 해결되지 않은 문제이며, 최상위 모델도 66.7%의 작업만 통과하고, 어떤 모델도 70%를 달성하지 못했습니다. 실패는 작업 유형 및 실행 환경에 따라 구조화되어 있으며, 인사, 관리 및 여러 시스템을 사용하는 비즈니스 워크플로우가 지속적인 병목 현상인 반면, 로컬 작업 공간 복구는 상대적으로 쉬우면서도 충분히 활용되지 못하고 있습니다. 단순히 순위만으로는 모델의 성능을 판단하기 어렵습니다. 유사한 통과율을 가진 모델이라도 전체 완료율에서 차이가 있을 수 있으며, 작업 수준의 차별성은 주로 중간 난이도의 작업에서 두드러집니다. Claw-Eval-Live는 워크플로우 에이전트 평가가 외부 요구 사항 및 검증 가능한 에이전트 동작을 기반으로 이루어져야 함을 시사합니다.
LLM agents are expected to complete end-to-end units of work across software tools, business services, and local workspaces. Yet many agent benchmarks freeze a curated task set at release time and grade mainly the final response, making it difficult to evaluate agents against evolving workflow demand or verify whether a task was executed. We introduce Claw-Eval-Live, a live benchmark for workflow agents that separates a refreshable signal layer, updated across releases from public workflow-demand signals, from a reproducible, time-stamped release snapshot. Each release is constructed from public workflow-demand signals, with ClawHub Top-500 skills used in the current release, and materialized as controlled tasks with fixed fixtures, services, workspaces, and graders. For grading, Claw-Eval-Live records execution traces, audit logs, service state, and post-run workspace artifacts, using deterministic checks when evidence is sufficient and structured LLM judging only for semantic dimensions. The release contains 105 tasks spanning controlled business services and local workspace repair, and evaluates 13 frontier models under a shared public pass rule. Experiments reveal that reliable workflow automation remains far from solved: the leading model passes only 66.7% of tasks and no model reaches 70%. Failures are structured by task family and execution surface, with HR, management, and multi-system business workflows as persistent bottlenecks and local workspace repair comparatively easier but unsaturated. Leaderboard rank alone is insufficient because models with similar pass rates can diverge in overall completion, and task-level discrimination concentrates in a middle band of tasks. Claw-Eval-Live suggests that workflow-agent evaluation should be grounded twice, in fresh external demand and in verifiable agent action.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.