2603.02766v1 Mar 03, 2026 cs.AI

EvoSkill: 다중 에이전트 시스템을 위한 자동화된 기술(Skill) 발견

EvoSkill: Automated Skill Discovery for Multi-Agent Systems

Weiyuan Chen

Citations: 51

h-index: 2

Salaheddin Alzubi

Citations: 170

h-index: 5

N. Provenzano

Citations: 24

h-index: 2

Jaydon Bingham

Citations: 10

h-index: 1

Tu Vu

Citations: 187

h-index: 4

코딩 에이전트는 점점 더 광범위한 문제 해결 도구로 사용되고 있지만, 이러한 유연성은 특화된 작업에 필요한 도메인 전문성을 자동으로 제공하지는 않습니다. 최근 연구에서는 '에이전트 기술(agent skills)'이라는 개념을 통해 이러한 문제를 해결하고자 합니다. 에이전트 기술은 재사용 가능한 워크플로우 및 코드를 활용하여 에이전트에 도메인별 기능을 추가합니다. 현재 대부분의 기술은 수동으로 만들어지며, 기존의 진화적 접근 방식은 특정 모델 및 작업에 밀접하게 결합된 저수준 구성 요소(예: 프롬프트 및 코드)를 최적화합니다. 본 연구에서는 반복적인 실패 분석을 통해 에이전트 기술을 자동으로 발견하고 개선하는 자기 진화 프레임워크인 **EvoSkill**을 소개합니다. EvoSkill은 실행 실패를 분석하고, 새로운 기술을 제안하거나 기존 기술을 수정하며, 이를 구조화된 재사용 가능한 기술 폴더로 구현합니다. 에이전트 프로그램의 파레토 최적 경계가 선택을 결정하며, 기본 모델을 고정 상태로 유지하면서 검증 데이터셋 성능을 향상시키는 기술만 유지합니다. EvoSkill을 두 가지 벤치마크에서 평가했습니다. 첫째, 미국 재무부 데이터를 기반으로 한 추론 벤치마크인 OfficeQA에서 정확도 일치율을 **7.3%** 향상시켰습니다 (60.6%에서 67.9%). 둘째, 노이즈가 있는 검색 기능을 포함하는 QA 벤치마크인 SealQA에서 **12.1%**의 성능 향상을 보였습니다 (26.6%에서 38.7%). 또한, 한 작업에서 진화된 기술이 다른 작업으로 전이되는 제로샷 성능을 조사했습니다. 특히, SealQA에서 진화된 기술은 BrowseComp으로 전이되어 수정 없이 정확도를 **5.3%** 향상시켰습니다. 이는 기술 수준의 최적화가 학습 작업 범위를 넘어 전이 가능한 기능을 생성한다는 것을 보여줍니다.

Original Abstract

Coding agents are increasingly used as general-purpose problem solvers, but their flexibility does not by itself confer the domain expertise needed for specialized tasks. Recent work addresses this through \textit{agent skills}: reusable workflows, and code, that augment agents with domain-specific capabilities. Most skills today are hand-crafted, and existing evolutionary approaches optimize low-level artifacts (e.g. prompts \& code) that are tightly coupled to specific models and tasks. We introduce \textbf{EvoSkill}, a self-evolving framework that automatically discovers and refines agent skills through iterative failure analysis. EvoSkill analyzes execution failures, proposes new skills or edits to existing ones, and materializes them into structured, reusable skill folders. A Pareto frontier of agent programs governs selection, retaining only skills that improve held-out validation performance while the underlying model remains frozen. We evaluate EvoSkill on two benchmarks: OfficeQA, a grounded reasoning benchmark over U.S.\ Treasury data, where it improves exact-match accuracy by \textbf{7.3\%} (60.6\% $\to$ 67.9\%); and SealQA, a search-augmented QA benchmark with noisy retrieval, where it yields a \textbf{12.1\%} gain (26.6\% $\to$ 38.7\%). We also investigate the zero-shot transfer capabilties of skills evolved on one task to the other; in particular: skills evolved from SealQA transfers zero-shot to BrowseComp, improving accuracy by \textbf{5.3\%} without modification demonstrating that skill-level optimization produces transferable capabilities beyond the training task.

11 Citations

0 Influential

2.5 Altmetric

23.5 Score

Original PDF

AI Analysis

Korean Summary

본 논문은 멀티 에이전트 시스템을 위해 에이전트의 '스킬(재사용 가능한 워크플로우 및 코드)'을 자동으로 탐색하고 개선하는 자가 진화 프레임워크인 EvoSkill을 제안합니다. 모델에 종속된 기존의 프롬프트나 코드 단위의 최적화와 달리, EvoSkill은 실행 실패 사례를 반복적으로 분석하여 독립적이고 구조화된 스킬 모듈을 생성 및 수정합니다. 이를 통해 OfficeQA 및 SealQA 벤치마크에서 기본 모델 파라미터를 동결한 상태로도 큰 성능 향상을 달성했으며, 생성된 스킬이 수정 없이 다른 새로운 과제(BrowseComp)에 제로샷(Zero-shot)으로 전이 및 적용될 수 있음을 성공적으로 입증했습니다.

Key Innovations

로우레벨 프롬프트나 코드가 아닌 더 높은 추상화 계층인 '스킬(Skill)' 수준에서의 자가 진화(self-evolving) 구조 도입
실행(Executor), 제안(Proposer), 스킬 빌더(Skill-Builder)라는 세 가지 역할의 에이전트를 활용한 텍스트 피드백 하강(Textual Feedback Descent) 최적화 루프 설계
파레토 프론티어(Pareto frontier) 알고리즘을 통한 최적의 에이전트 프로그램 검증 및 유지 관리
과거 제안 이력과 실패 사례를 누적하여 중복을 피하고 스킬을 정교화하는 실패 주도형(failure-driven) 강화 방식
특정 태스크에 과적합되지 않은 구조화된 스킬 생성을 통한 완전히 새로운 태스크로의 제로샷 스킬 전이(Zero-shot Skill Transfer) 증명

Learning & Inference Impact

EvoSkill은 기본 언어 모델(LLM)의 가중치를 업데이트하는 전통적 학습 대신, 실패 사례에 대한 텍스트 기반 피드백 루프를 통해 에이전트의 스킬 라이브러리를 확장하는 비모수적(non-parametric) 학습 방식을 취합니다. 이는 모델 재학습에 드는 비용을 절감하는 동시에 에이전트의 능력을 해석 가능한 형태로 모듈화하여 누적시킵니다. 추론(Inference) 단계에서 에이전트는 거대한 시스템 프롬프트를 사용하는 대신, 런타임에 필요한 스킬(메타데이터, 실행 스크립트 등)만 동적으로 호출합니다. 이러한 점진적 정보 노출(Progressive disclosure) 방식은 LLM의 컨텍스트 윈도우 오버헤드를 최소화하고, 도메인 특화 능력을 일관성 있게 유지할 수 있도록 도와주며, 결과적으로 스킬이 추론 과정에서 다른 환경과 유연하게 결합될 수 있는 확장성을 부여합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!