ClawsBench: 시뮬레이션된 작업 환경에서 LLM 생산성 에이전트의 기능 및 안전성 평가
ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces
대규모 언어 모델(LLM) 에이전트는 이메일, 일정 관리, 문서 관리 등 생산성 작업을 자동화하는 데 점점 더 많이 사용되고 있지만, 잠재적으로 되돌릴 수 없는 변경 사항으로 인해 실제 서비스에서 평가하는 것은 위험합니다. 기존 벤치마크는 단순화된 환경에 의존하며 현실적인 상태 기반의 다중 서비스 워크플로우를 제대로 반영하지 못합니다. 본 연구에서는 현실적인 생산성 환경에서 LLM 에이전트를 평가하고 개선하기 위한 벤치마크인 ClawsBench를 소개합니다. ClawsBench는 완전한 상태 관리 및 결정적인 스냅샷/복구 기능을 갖춘 다섯 가지 고품질 모의 서비스(Gmail, Slack, Google Calendar, Google Docs, Google Drive)와 단일 서비스, 교차 서비스, 안전 관련 시나리오를 포괄하는 44개의 구조화된 작업으로 구성됩니다. 우리는 에이전트의 핵심 구조를 두 가지 독립적인 요소(API 지식을 점진적으로 주입하는 도메인 기술과 여러 서비스에 걸쳐 동작을 조정하는 메타 프롬프트)로 분해하고, 이들의 개별적인 효과와 결합된 효과를 측정하기 위해 두 가지 요소를 모두 다양하게 변형했습니다. 6개의 모델, 4개의 에이전트 프레임워크, 33개의 조건에 대한 실험 결과, 완전한 구조를 갖춘 에이전트는 39~64%의 작업 성공률을 달성했지만, 7~33%의 안전하지 않은 작업 수행률을 보였습니다. OpenClaw에서 상위 5개 모델은 작업 성공률에서 10%p 이내의 범위(53~63%)에 속하며, 안전하지 않은 작업 수행률은 7%에서 23% 사이입니다. 두 가지 지표 간에는 일관된 순위가 나타나지 않습니다. 우리는 멀티 스텝 샌드박스 에스컬레이션 및 조용한 계약 수정 등 8가지의 반복적인 안전하지 않은 동작 패턴을 식별했습니다.
Large language model (LLM) agents are increasingly deployed to automate productivity tasks (e.g., email, scheduling, document management), but evaluating them on live services is risky due to potentially irreversible changes. Existing benchmarks rely on simplified environments and fail to capture realistic, stateful, multi-service workflows. We introduce ClawsBench, a benchmark for evaluating and improving LLM agents in realistic productivity settings. It includes five high-fidelity mock services (Gmail, Slack, Google Calendar, Google Docs, Google Drive) with full state management and deterministic snapshot/restore, along with 44 structured tasks covering single-service, cross-service, and safety-critical scenarios. We decompose agent scaffolding into two independent levers (domain skills that inject API knowledge via progressive disclosure, and a meta prompt that coordinates behavior across services) and vary both to measure their separate and combined effects. Experiments across 6 models, 4 agent harnesses, and 33 conditions show that with full scaffolding, agents achieve task success rates of 39-64% but exhibit unsafe action rates of 7-33%. On OpenClaw, the top five models fall within a 10 percentage-point band on task success (53-63%), with unsafe action rates from 7% to 23% and no consistent ordering between the two metrics. We identify eight recurring patterns of unsafe behavior, including multi-step sandbox escalation and silent contract modification.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.