Skill1: 강화 학습을 통한 기술 증강 에이전트의 통합 진화
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
지속적인 기술 라이브러리는 언어 모델 에이전트가 다양한 작업에서 성공적인 전략을 재사용할 수 있도록 합니다. 이러한 라이브러리를 유지하려면 세 가지 상호 연관된 기능이 필요합니다. 에이전트는 관련 기술을 선택하고, 실행 중에 이를 활용하며, 경험으로부터 새로운 기술을 추출합니다. 기존 방법은 이러한 기능들을 개별적으로 최적화하거나 별도의 보상 소스를 사용하여 최적화하므로, 부분적이고 상충되는 진화가 발생합니다. 본 논문에서는 단일 정책을 사용하여 기술 선택, 활용 및 추출을 공동으로 진화시키고, 공유된 작업 결과 목표를 향하도록 학습시키는 프레임워크인 Skill1을 제안합니다. 이 정책은 기술 라이브러리를 검색하기 위한 쿼리를 생성하고, 후보를 재평가하여 하나를 선택하며, 선택된 기술에 조건부로 작업을 해결하고, 트레이너리에서 새로운 기술을 추출합니다. 모든 학습은 단일 작업 결과 신호에서 파생됩니다. 낮은 주파수의 경향은 기술 선택에 기여하고, 높은 주파수의 변동은 기술 추출에 기여합니다. ALFWorld 및 WebShop에서의 실험 결과, Skill1은 기존의 기술 기반 및 강화 학습 모델보다 우수한 성능을 보였습니다. 학습 동역학 분석은 세 가지 기능의 공동 진화를 확인했으며, 어떤 신호라도 제거하면 진화가 저하된다는 것을 ablation 연구를 통해 확인했습니다.
A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.