2605.06130v1 May 07, 2026 cs.AI

Skill1: 강화 학습을 통한 기술 증강 에이전트의 통합 진화

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Yaorui Shi
Yaorui Shi
Citations: 300
h-index: 9
Xunliang Cai
Xunliang Cai
Citations: 83
h-index: 5
Yuxin Chen
Yuxin Chen
Citations: 25
h-index: 3
Zhengxi Lu
Zhengxi Lu
Citations: 290
h-index: 6
Yuchun Miao
Yuchun Miao
Citations: 290
h-index: 5
Shugui Liu
Shugui Liu
Citations: 3
h-index: 1
Guohao Qi
Guohao Qi
Citations: 5
h-index: 2
An Zhang
An Zhang
Citations: 208
h-index: 9
Xiangjun Wang
Xiangjun Wang
Citations: 78
h-index: 4

지속적인 기술 라이브러리는 언어 모델 에이전트가 다양한 작업에서 성공적인 전략을 재사용할 수 있도록 합니다. 이러한 라이브러리를 유지하려면 세 가지 상호 연관된 기능이 필요합니다. 에이전트는 관련 기술을 선택하고, 실행 중에 이를 활용하며, 경험으로부터 새로운 기술을 추출합니다. 기존 방법은 이러한 기능들을 개별적으로 최적화하거나 별도의 보상 소스를 사용하여 최적화하므로, 부분적이고 상충되는 진화가 발생합니다. 본 논문에서는 단일 정책을 사용하여 기술 선택, 활용 및 추출을 공동으로 진화시키고, 공유된 작업 결과 목표를 향하도록 학습시키는 프레임워크인 Skill1을 제안합니다. 이 정책은 기술 라이브러리를 검색하기 위한 쿼리를 생성하고, 후보를 재평가하여 하나를 선택하며, 선택된 기술에 조건부로 작업을 해결하고, 트레이너리에서 새로운 기술을 추출합니다. 모든 학습은 단일 작업 결과 신호에서 파생됩니다. 낮은 주파수의 경향은 기술 선택에 기여하고, 높은 주파수의 변동은 기술 추출에 기여합니다. ALFWorld 및 WebShop에서의 실험 결과, Skill1은 기존의 기술 기반 및 강화 학습 모델보다 우수한 성능을 보였습니다. 학습 동역학 분석은 세 가지 기능의 공동 진화를 확인했으며, 어떤 신호라도 제거하면 진화가 저하된다는 것을 ablation 연구를 통해 확인했습니다.

Original Abstract

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

4 Citations
0 Influential
4.5 Altmetric
26.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!