Skill-SD: 기술 기반 자기 증류를 통한 다중 턴 LLM 에이전트
Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents
강화 학습(RL)은 다중 턴 상호 작용 작업을 위한 LLM 에이전트 훈련에 널리 사용되어 왔지만, 희소한 보상과 긴 수평으로 인해 샘플 효율성이 심각하게 제한됩니다. 온-폴리시 자기 증류(OPSD)는 권한 있는 교사가 정답에 접근할 수 있는 상태에서 제공하는 밀집된 토큰 수준의 감독을 통해 이러한 문제를 완화합니다. 그러나 이러한 고정된 권한 정보는 에이전트 작업에서 발생하는 다양한 유효 전략을 포착할 수 없으며, OPSD를 RL과 무분별하게 결합하면 훈련이 실패하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 에이전트의 자체 경로를 동적 훈련 전용 감독으로 활용하는 프레임워크인 Skill-SD를 소개합니다. 완료된 경로는 성공적인 행동, 실수 및 워크플로우를 설명하는 간결한 자연어 기술로 요약됩니다. 이러한 기술은 동적 권한 정보 역할을 하며, 교사에만 영향을 미치고, 학생은 항상 일반적인 작업 프롬프트 하에서 작동하며 증류를 통해 지침을 내재화하도록 학습합니다. 훈련을 안정화하기 위해, 우리는 그래디언트 정렬 토큰 수준 증류를 제공하기 위한 중요도 가중 역 KL 손실을 도출하고, 개선되는 학생과 교사를 동적으로 동기화합니다. 에이전트 벤치마크에 대한 실험 결과는 Skill-SD가 표준 RL 기준 성능보다 훨씬 우수하며, 일반적인 GRPO(+14.0%/+10.9% on AppWorld/Sokoban) 및 일반적인 OPD(+42.1%/+40.6%) 모두에서 성능 향상을 보인다는 것을 보여줍니다. 프로젝트 페이지: https://k1xe.github.io/skill-sd/
Reinforcement learning (RL) has been widely used to train LLM agents for multi-turn interactive tasks, but its sample efficiency is severely limited by sparse rewards and long horizons. On-policy self-distillation (OPSD) alleviates this by providing dense token-level supervision from a privileged teacher that has access to ground-truth answers. However, such fixed privileged information cannot capture the diverse valid strategies in agent tasks, and naively combining OPSD with RL often leads to training collapse. To address these limitations, we introduce Skill-SD, a framework that turns the agent's own trajectories into dynamic training-only supervision. Completed trajectories are summarized into compact natural language skills that describe successful behaviors, mistakes, and workflows. These skills serve as dynamic privileged information conditioning only the teacher, while the student always acts under the plain task prompt and learns to internalize the guidance through distillation. To stabilize the training, we derive an importance-weighted reverse-KL loss to provide gradient-correct token-level distillation, and dynamically synchronize the teacher with the improving student. Experimental results on agentic benchmarks demonstrate that Skill-SD substantially outperforms the standard RL baseline, improving both vanilla GRPO (+14.0%/+10.9% on AppWorld/Sokoban) and vanilla OPD (+42.1%/+40.6%). Project page: https://k1xe.github.io/skill-sd/
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.