EvoSkill: 다중 에이전트 시스템을 위한 자동화된 기술(Skill) 발견
EvoSkill: Automated Skill Discovery for Multi-Agent Systems
코딩 에이전트는 점점 더 광범위한 문제 해결 도구로 사용되고 있지만, 이러한 유연성은 특화된 작업에 필요한 도메인 전문성을 자동으로 제공하지는 않습니다. 최근 연구에서는 '에이전트 기술(agent skills)'이라는 개념을 통해 이러한 문제를 해결하고자 합니다. 에이전트 기술은 재사용 가능한 워크플로우 및 코드를 활용하여 에이전트에 도메인별 기능을 추가합니다. 현재 대부분의 기술은 수동으로 만들어지며, 기존의 진화적 접근 방식은 특정 모델 및 작업에 밀접하게 결합된 저수준 구성 요소(예: 프롬프트 및 코드)를 최적화합니다. 본 연구에서는 반복적인 실패 분석을 통해 에이전트 기술을 자동으로 발견하고 개선하는 자기 진화 프레임워크인 **EvoSkill**을 소개합니다. EvoSkill은 실행 실패를 분석하고, 새로운 기술을 제안하거나 기존 기술을 수정하며, 이를 구조화된 재사용 가능한 기술 폴더로 구현합니다. 에이전트 프로그램의 파레토 최적 경계가 선택을 결정하며, 기본 모델을 고정 상태로 유지하면서 검증 데이터셋 성능을 향상시키는 기술만 유지합니다. EvoSkill을 두 가지 벤치마크에서 평가했습니다. 첫째, 미국 재무부 데이터를 기반으로 한 추론 벤치마크인 OfficeQA에서 정확도 일치율을 **7.3%** 향상시켰습니다 (60.6%에서 67.9%). 둘째, 노이즈가 있는 검색 기능을 포함하는 QA 벤치마크인 SealQA에서 **12.1%**의 성능 향상을 보였습니다 (26.6%에서 38.7%). 또한, 한 작업에서 진화된 기술이 다른 작업으로 전이되는 제로샷 성능을 조사했습니다. 특히, SealQA에서 진화된 기술은 BrowseComp으로 전이되어 수정 없이 정확도를 **5.3%** 향상시켰습니다. 이는 기술 수준의 최적화가 학습 작업 범위를 넘어 전이 가능한 기능을 생성한다는 것을 보여줍니다.
Coding agents are increasingly used as general-purpose problem solvers, but their flexibility does not by itself confer the domain expertise needed for specialized tasks. Recent work addresses this through \textit{agent skills}: reusable workflows, and code, that augment agents with domain-specific capabilities. Most skills today are hand-crafted, and existing evolutionary approaches optimize low-level artifacts (e.g. prompts \& code) that are tightly coupled to specific models and tasks. We introduce \textbf{EvoSkill}, a self-evolving framework that automatically discovers and refines agent skills through iterative failure analysis. EvoSkill analyzes execution failures, proposes new skills or edits to existing ones, and materializes them into structured, reusable skill folders. A Pareto frontier of agent programs governs selection, retaining only skills that improve held-out validation performance while the underlying model remains frozen. We evaluate EvoSkill on two benchmarks: OfficeQA, a grounded reasoning benchmark over U.S.\ Treasury data, where it improves exact-match accuracy by \textbf{7.3\%} (60.6\% $\to$ 67.9\%); and SealQA, a search-augmented QA benchmark with noisy retrieval, where it yields a \textbf{12.1\%} gain (26.6\% $\to$ 38.7\%). We also investigate the zero-shot transfer capabilties of skills evolved on one task to the other; in particular: skills evolved from SealQA transfers zero-shot to BrowseComp, improving accuracy by \textbf{5.3\%} without modification demonstrating that skill-level optimization produces transferable capabilities beyond the training task.
AI Analysis
Korean Summary
Key Innovations
- 로우레벨 프롬프트나 코드가 아닌 더 높은 추상화 계층인 '스킬(Skill)' 수준에서의 자가 진화(self-evolving) 구조 도입
- 실행(Executor), 제안(Proposer), 스킬 빌더(Skill-Builder)라는 세 가지 역할의 에이전트를 활용한 텍스트 피드백 하강(Textual Feedback Descent) 최적화 루프 설계
- 파레토 프론티어(Pareto frontier) 알고리즘을 통한 최적의 에이전트 프로그램 검증 및 유지 관리
- 과거 제안 이력과 실패 사례를 누적하여 중복을 피하고 스킬을 정교화하는 실패 주도형(failure-driven) 강화 방식
- 특정 태스크에 과적합되지 않은 구조화된 스킬 생성을 통한 완전히 새로운 태스크로의 제로샷 스킬 전이(Zero-shot Skill Transfer) 증명
Learning & Inference Impact
EvoSkill은 기본 언어 모델(LLM)의 가중치를 업데이트하는 전통적 학습 대신, 실패 사례에 대한 텍스트 기반 피드백 루프를 통해 에이전트의 스킬 라이브러리를 확장하는 비모수적(non-parametric) 학습 방식을 취합니다. 이는 모델 재학습에 드는 비용을 절감하는 동시에 에이전트의 능력을 해석 가능한 형태로 모듈화하여 누적시킵니다. 추론(Inference) 단계에서 에이전트는 거대한 시스템 프롬프트를 사용하는 대신, 런타임에 필요한 스킬(메타데이터, 실행 스크립트 등)만 동적으로 호출합니다. 이러한 점진적 정보 노출(Progressive disclosure) 방식은 LLM의 컨텍스트 윈도우 오버헤드를 최소화하고, 도메인 특화 능력을 일관성 있게 유지할 수 있도록 도와주며, 결과적으로 스킬이 추론 과정에서 다른 환경과 유연하게 결합될 수 있는 확장성을 부여합니다.
Technical Difficulty
Estimated implementation complexity based on methodology.