SkillOS: 자기 진화 에이전트를 위한 학습 기반 기술 큐레이션
SkillOS: Learning Skill Curation for Self-Evolving Agents
LLM 기반 에이전트가 스트리밍 작업 처리에 점점 더 많이 활용되고 있지만, 이들은 종종 일회성 문제 해결 도구로 남아 과거 상호 작용으로부터 학습하지 못하는 경우가 많습니다. 경험으로부터 추출된 재사용 가능한 기술은 자기 진화의 자연스러운 기반을 제공하며, 여기서 고품질 기술 큐레이션은 핵심적인 병목 현상으로 작용합니다. 기존 방법들은 수동 기술 큐레이션에 의존하거나, 휴리스틱 기반 기술 작동 방식을 규정하거나, 단기 기술 작동을 위한 학습을 수행합니다. 그러나 이러한 방법들은 여전히 간접적이고 지연된 피드백으로부터 복잡한 장기 큐레이션 정책을 학습하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 자기 진화 에이전트에서 기술 큐레이션을 학습하기 위한 경험 기반 강화 학습(RL) 훈련 방법을 제시합니다. SkillOS는 기술을 검색하고 적용하는 고정된 에이전트 실행기와, 축적된 경험으로부터 외부 SkillRepo를 업데이트하는 학습 가능한 기술 큐레이터로 구성됩니다. 큐레이션을 위한 학습 신호를 제공하기 위해, 우리는 복합적인 보상을 설계하고, 기술과 관련된 작업 의존성을 기반으로 그룹화된 작업 스트림에서 학습을 진행합니다. 초기 트래잭터리는 SkillRepo를 업데이트하고, 이후 관련된 작업은 이러한 업데이트를 평가합니다. SkillOS는 다양한 다중 회전 에이전트 작업 및 단일 회전 추론 작업에서 메모리 기반 및 강력한 메모리 기반 기준 모델보다 효과 및 효율성 측면에서 일관되게 우수한 성능을 보입니다. 또한, 학습된 큐레이터는 더 정교한 기술 사용을 유도하며, SkillRepo 내의 기술은 시간이 지남에 따라 더 풍부하게 구조화된 Markdown 파일로 진화하여 상위 수준의 메타 기술을 인코딩합니다.
LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.