SkillX: 에이전트를 위한 기술 지식 베이스를 자동으로 구축하는 방법
SkillX: Automatically Constructing Skill Knowledge Bases for Agents
뛰어난 대규모 언어 모델(LLM) 에이전트를 구축하기 위해서는 경험을 통한 학습이 중요하지만, 현재의 자가 진화 패러다임은 비효율적입니다. 에이전트들은 고립된 상태에서 학습하며, 제한된 경험으로부터 유사한 행동을 반복적으로 재발견하여 불필요한 탐색과 낮은 일반화 성능을 초래합니다. 이러한 문제를 해결하기 위해, 저희는 SkillX를 제안합니다. SkillX는 다양한 에이전트와 환경에서 재사용 가능한 extbf{즉시 사용 가능한 기술 지식 베이스}를 구축하기 위한 완전 자동화 프레임워크입니다. SkillX는 세 가지 시너지 효과를 내는 혁신적인 기술을 기반으로 하는 완전 자동화 파이프라인을 통해 작동합니다. extit{(i) 다층 기술 설계(Multi-Level Skills Design)}는 원시 실행 경로를 전략적 계획, 기능 기술, 원자 기술의 세 단계로 구성된 계층 구조로 변환합니다. extit{(ii) 반복적인 기술 개선(Iterative Skills Refinement)}은 실행 피드백을 기반으로 기술을 자동으로 수정하여 라이브러리의 품질을 지속적으로 향상시킵니다. extit{(iii) 탐색적 기술 확장(Exploratory Skills Expansion)}은 새로운 기술을 적극적으로 생성하고 검증하여 초기 학습 데이터 범위를 넘어 확장합니다. 강력한 기본 에이전트(GLM-4.6)를 사용하여, 재사용 가능한 기술 라이브러리를 자동으로 구축하고, AppWorld, BFCL-v3, 및 $τ^2$-Bench와 같은 복잡하고 장기적인 사용자 인터랙션 벤치마크에서 그 활용성을 평가했습니다. 실험 결과, SkillKB는 약한 기본 에이전트에 적용될 때 일관되게 작업 성공률과 실행 효율성을 향상시켰으며, 이는 일반화 가능한 에이전트 학습을 위한 구조화되고 계층적인 경험 표현의 중요성을 강조합니다. 저희의 코드는 곧 https://github.com/zjunlp/SkillX 에서 공개될 예정입니다.
Learning from experience is critical for building capable large language model (LLM) agents, yet prevailing self-evolving paradigms remain inefficient: agents learn in isolation, repeatedly rediscover similar behaviors from limited experience, resulting in redundant exploration and poor generalization. To address this problem, we propose SkillX, a fully automated framework for constructing a \textbf{plug-and-play skill knowledge base} that can be reused across agents and environments. SkillX operates through a fully automated pipeline built on three synergistic innovations: \textit{(i) Multi-Level Skills Design}, which distills raw trajectories into three-tiered hierarchy of strategic plans, functional skills, and atomic skills; \textit{(ii) Iterative Skills Refinement}, which automatically revises skills based on execution feedback to continuously improve library quality; and \textit{(iii) Exploratory Skills Expansion}, which proactively generates and validates novel skills to expand coverage beyond seed training data. Using a strong backbone agent (GLM-4.6), we automatically build a reusable skill library and evaluate its transferability on challenging long-horizon, user-interactive benchmarks, including AppWorld, BFCL-v3, and $τ^2$-Bench. Experiments show that SkillKB consistently improves task success and execution efficiency when plugged into weaker base agents, highlighting the importance of structured, hierarchical experience representations for generalizable agent learning. Our code will be publicly available soon at https://github.com/zjunlp/SkillX.
AI Analysis
Korean Summary
Key Innovations
- 다중 계층 스킬 설계 (Multi-Level Skills Design): 에이전트의 원시 실행 궤적을 '계획(Planning)', '기능(Functional)', '원자적(Atomic)' 스킬이라는 세 가지 계층으로 추상화하여 지식의 재사용성과 모듈성을 극대화
- 반복적 스킬 정제 (Iterative Skills Refinement): 에이전트의 실행 피드백을 기반으로 유사한 스킬을 병합하고 오류가 있는 스킬을 엄격하게 필터링하여 라이브러리의 품질을 자동적, 반복적으로 향상
- 탐색적 스킬 확장 (Exploratory Skills Expansion): 경험 지향적 탐색(Experience Guiding Exploration)을 통해 초기 시드 훈련 데이터의 범위를 넘어 활용도가 낮거나 실패하기 쉬운 동작에 대한 새로운 스킬을 능동적으로 탐색하고 추가
Learning & Inference Impact
학습 측면: 에이전트가 매번 개별적으로 시행착오를 반복하는 기존의 고비용 방식에서 벗어나, 강력한 교사 모델의 성공적인 궤적을 범용적인 지식(스킬)으로 추출해 지식 베이스에 축적합니다. 모델 가중치를 변경하는 파인튜닝 없이도, 텍스트 기반의 반복 정제를 통해 양질의 경험 데이터를 영구적으로 보존하고 진화시킬 수 있어 학습 비용과 중복 탐색을 획기적으로 줄입니다. 추론 측면: 새로운 태스크가 주어졌을 때, 에이전트는 처음부터 추론하는 대신 검색기(Retriever)를 통해 지식 베이스에서 가장 적절한 계층적 스킬을 찾아 프롬프트에 주입(Plug-and-play)합니다. 이는 필수적인 API 호출 순서나 제약 조건 등을 명확히 제시하여 불필요한 환경 탐색과 오류를 방지합니다. 결과적으로 전체 실행 단계(Execution steps)와 입력 토큰 수를 줄여 추론 효율성을 높이며, 소형/약소 모델들도 강한 모델 수준의 높은 작업 성공률을 달성할 수 있도록 추론 성능 한계를 돌파하게 해줍니다.
Technical Difficulty
Estimated implementation complexity based on methodology.