2604.01687v1 Apr 02, 2026 cs.AI

EvoSkills: 공진화 검증을 통한 스스로 진화하는 에이전트 기술

EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification

Xiaoxiao Li
Xiaoxiao Li
Citations: 22
h-index: 2
Yankai Chen
Yankai Chen
Citations: 334
h-index: 9
Philip S. Yu
Philip S. Yu
Citations: 72
h-index: 6
Henry Peng Zou
Henry Peng Zou
University of Illinois Chicago
Citations: 635
h-index: 14
Wei-Chieh Huang
Wei-Chieh Huang
University of Illinois Chicago
Citations: 220
h-index: 8
Chengze Li
Chengze Li
Citations: 3
h-index: 1
Hanrong Zhang
Hanrong Zhang
Citations: 217
h-index: 3
Shichen Fan
Shichen Fan
Citations: 25
h-index: 3
Jiayuan Zhou
Jiayuan Zhou
Citations: 26
h-index: 3
Yifei Yao
Yifei Yao
Citations: 9
h-index: 2
Kening Zheng
Kening Zheng
Citations: 177
h-index: 6
Xue Liu
Xue Liu
Citations: 17
h-index: 2
Zhenting Wang
Zhenting Wang
Citations: 66
h-index: 3

Anthropic은 LLM 에이전트가 단순한 도구 호출로는 해결할 수 없는 복잡한 전문 작업을 수행할 수 있도록 '기술(skill)'이라는 개념을 제안했습니다. 도구는 독립적인 함수인 반면, 기술은 상호 의존적인 다중 파일 구성 요소로 이루어진 구조화된 집합입니다. 현재 기술 생성은 수동 작성을 통해 이루어지기 때문에 라벨 의존성이 높을 뿐만 아니라, 인간-기계 인지 불일치로 인해 에이전트 성능이 저하될 수 있으며, SkillsBench 평가에서 이러한 현상이 확인되었습니다. 따라서, 본 연구에서는 에이전트가 스스로 기술을 생성할 수 있도록 하는 것을 목표로 합니다. 그러나 기존의 도구에 적용되던 자기 진화 방법은 기술의 복잡성 증가로 인해 직접적으로 적용하기 어렵습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 에이전트가 복잡하고 다중 파일로 구성된 기술 패키지를 자율적으로 생성할 수 있도록 하는 자기 진화 기술 프레임워크인 EvoSkills를 제안합니다. 구체적으로, EvoSkills는 기술 생성기를 통해 기술을 반복적으로 개선하고, 실제 테스트 데이터에 대한 접근 없이도 유용한 정보를 제공하여 에이전트의 기술을 발전시키는 데 도움을 주는 대리 검증기(Surrogate Verifier)를 결합합니다. SkillsBench에서 EvoSkills는 Claude Code 및 Codex에서 5개의 기준 모델 대비 가장 높은 합격률을 달성했으며, 또한 6개의 추가 LLM에 대한 강력한 일반화 성능을 보여주었습니다.

Original Abstract

Anthropic proposes the concept of skills for LLM agents to tackle multi-step professional tasks that simple tool invocations cannot address. A tool is a single, self-contained function, whereas a skill is a structured bundle of interdependent multi-file artifacts. Currently, skill generation is not only label-intensive due to manual authoring, but also may suffer from human--machine cognitive misalignment, which can lead to degraded agent performance, as evidenced by evaluations on SkillsBench. Therefore, we aim to enable agents to autonomously generate skills. However, existing self-evolving methods designed for tools cannot be directly applied to skills due to their increased complexity. To address these issues, we propose EvoSkills, a self-evolving skills framework that enables agents to autonomously construct complex, multi-file skill packages. Specifically, EvoSkills couples a Skill Generator that iteratively refines skills with a Surrogate Verifier that co-evolves to provide informative and actionable feedback without access to ground-truth test content. On SkillsBench, EvoSkills achieves the highest pass rate among five baselines on both Claude Code and Codex, and also exhibits strong generalization capabilities to six additional LLMs.

4 Citations
1 Influential
7 Altmetric
41.0 Score
Original PDF

AI Analysis

Korean Summary

EvoSkills는 LLM 에이전트가 복잡한 다중 파일 스킬(Skill) 패키지를 자율적으로 생성하고 진화시킬 수 있도록 돕는 공진화(Co-Evolutionary) 프레임워크입니다. 사람이 수동으로 작성한 스킬은 노동 집약적이고 '인간-기계 인지 불일치'로 인해 성능 저하를 유발할 수 있습니다. 이를 해결하기 위해 EvoSkills는 스킬을 반복적으로 생성 및 개선하는 '스킬 생성기(Skill Generator)'와 정답 테스트 코드 없이도 독립적으로 상세한 실패 진단 피드백을 제공하는 '대리 검증기(Surrogate Verifier)'를 결합했습니다. 이 프레임워크는 SkillsBench 평가에서 기존 베이스라인과 인간이 작성한 스킬의 성능을 크게 압도했으며, 생성된 스킬은 다른 다양한 LLM 모델에서도 높은 성능 향상을 이끄는 뛰어난 전이성을 보였습니다.

Key Innovations

  • 스킬 생성기(Skill Generator)와 대리 검증기(Surrogate Verifier)가 반복적인 피드백 루프를 통해 상호 발전하는 공진화(Co-evolutionary) 아키텍처 도입
  • 실제 정답(Ground-truth)에 대한 구체적인 내용 없이, 단순한 통과/실패 신호만을 기반으로 독립적인 테스트 케이스를 합성하고 피드백을 제공하는 대리 검증 시스템 구축
  • 단순한 단일 함수 형태의 도구(Tool)를 넘어 워크플로우 지침, 실행 가능한 스크립트, 참조 문서가 구조적으로 결합된 복잡한 다중 파일 스킬 패키지의 자율적 구축
  • 인간 전문가가 설계한 워크플로우와 LLM의 추론 방식 간의 인지적 불일치(Cognitive Misalignment) 문제 해결 및 타 모델군에 적용 가능한 이식성(Portability) 확보

Learning & Inference Impact

학습(진화) 측면에서 EvoSkills는 모델의 가중치 업데이트(Fine-tuning)나 값비싼 인간의 라벨링 데이터 없이도, 프롬프트 기반의 상호작용과 환경 피드백만으로 에이전트가 복잡한 문제 해결 능력을 스스로 '학습'하고 고도화할 수 있게 합니다. 특히 정보를 격리한 대리 검증기를 통해 LLM의 자가 검증 시 흔히 발생하는 확증 편향(Confirmation bias)을 방지하여 견고한 진화를 유도합니다. 추론 측면에서는 테스트 타임에 에이전트가 이미 디버깅과 최적화가 완료된 스킬 패키지를 로드하여 작업을 수행하므로, 실시간 시행착오를 대폭 줄일 수 있습니다. 이는 컨텍스트 윈도우 낭비와 불필요한 계산 비용을 절감하며, 복잡하고 긴 호흡이 필요한 작업에서 추론의 정확도와 안정성을 비약적으로 향상시킵니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!