SkillsBench: 다양한 작업에서 에이전트 스킬의 성능 벤치마킹
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
에이전트 스킬(Agent Skills)은 추론 시점에 LLM 에이전트의 기능을 향상시키는 절차적 지식의 구조화된 패키지입니다. 빠른 도입 속도에도 불구하고, 이것들이 실제로 도움이 되는지 측정할 표준화된 방법은 존재하지 않습니다. 본 논문에서는 11개 도메인에 걸친 86개 작업과 이에 상응하는 엄선된(curated) 스킬 및 결정론적 검증기로 구성된 벤치마크인 SkillsBench를 제시합니다. 각 작업은 스킬 없음, 엄선된 스킬, 자체 생성 스킬의 세 가지 조건 하에 평가됩니다. 우리는 7,308개의 궤적에 걸쳐 7가지 에이전트-모델 구성을 테스트했습니다. 엄선된 스킬은 평균 통과율을 16.2%포인트(pp) 상승시켰으나, 그 효과는 도메인에 따라 크게 달랐으며(소프트웨어 엔지니어링의 +4.5pp부터 헬스케어의 +51.9pp까지), 84개 작업 중 16개에서는 오히려 부정적인 변화를 보였습니다. 자체 생성 스킬은 평균적으로 이점을 제공하지 못했는데, 이는 모델이 소비함으로써 이득을 얻는 절차적 지식을 스스로 신뢰성 있게 저작할 수는 없음을 시사합니다. 2~3개의 모듈로 구성된 집중된 스킬이 포괄적인 문서보다 뛰어난 성능을 보였으며, 스킬을 갖춘 소형 모델이 스킬이 없는 대형 모델과 대등한 성능을 발휘할 수 있음이 확인되었습니다.
Agent Skills are structured packages of procedural knowledge that augment LLM agents at inference time. Despite rapid adoption, there is no standard way to measure whether they actually help. We present SkillsBench, a benchmark of 86 tasks across 11 domains paired with curated Skills and deterministic verifiers. Each task is evaluated under three conditions: no Skills, curated Skills, and self-generated Skills. We test 7 agent-model configurations over 7,308 trajectories. Curated Skills raise average pass rate by 16.2 percentage points(pp), but effects vary widely by domain (+4.5pp for Software Engineering to +51.9pp for Healthcare) and 16 of 84 tasks show negative deltas. Self-generated Skills provide no benefit on average, showing that models cannot reliably author the procedural knowledge they benefit from consuming. Focused Skills with 2--3 modules outperform comprehensive documentation, and smaller models with Skills can match larger models without them.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.