SkillOrchestra: 기술 전이를 통한 에이전트 라우팅 학습
SkillOrchestra: Learning to Route Agents via Skill Transfer
복합 AI 시스템은 개별 모델을 넘어서는 성능을 약속하지만, 그 성공 여부는 효과적인 오케스트레이션(조율)에 결정적으로 달려 있다. 기존 라우팅 접근법은 두 가지 한계에 직면해 있다. (1) 입력 수준 라우터는 계속 변화하는 작업 요구 사항을 무시하고 거친 수준(coarse)의 쿼리 단위 결정만을 내린다. (2) 강화학습(RL)으로 훈련된 오케스트레이터는 적응 비용이 많이 들고, 멀티턴 시나리오에서 강력하지만 비용이 높은 단일 옵션을 반복적으로 호출하는 라우팅 붕괴(routing collapse) 현상을 자주 겪는다. 본 논문에서는 기술 인식(skill-aware) 오케스트레이션 프레임워크인 SkillOrchestra를 소개한다. SkillOrchestra는 라우팅 정책을 종단간(end-to-end)으로 직접 학습하는 대신, 실행 경험으로부터 세분화된 기술을 학습하고 이러한 기술에 따른 에이전트별 역량과 비용을 모델링한다. 배포 시 오케스트레이터는 현재 상호작용에 필요한 기술 요구 사항을 추론하고 명시적인 성능-비용 트레이드오프 하에서 이를 가장 잘 충족하는 에이전트를 선택한다. 10개의 벤치마크에 걸친 광범위한 실험 결과, SkillOrchestra는 최첨단(SoTA) RL 기반 오케스트레이터에 비해 성능이 최대 22.5% 향상되었으며, Router-R1 및 ToolOrchestra와 비교해 학습 비용을 각각 700배, 300배 절감했다. 이러한 결과는 명시적인 기술 모델링이 확장 가능하고 해석 가능하며 샘플 효율적인 오케스트레이션을 가능하게 하여, 데이터 집약적인 RL 기반 접근법을 대체할 수 있는 원칙적인 대안을 제공함을 보여준다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/jiayuww/SkillOrchestra.
Compound AI systems promise capabilities beyond those of individual models, yet their success depends critically on effective orchestration. Existing routing approaches face two limitations: (1) input-level routers make coarse query-level decisions that ignore evolving task requirements; (2) RL-trained orchestrators are expensive to adapt and often suffer from routing collapse, repeatedly invoking one strong but costly option in multi-turn scenarios. We introduce SkillOrchestra, a framework for skill-aware orchestration. Instead of directly learning a routing policy end-to-end, SkillOrchestra learns fine-grained skills from execution experience and models agent-specific competence and cost under those skills. At deployment, the orchestrator infers the skill demands of the current interaction and selects agents that best satisfy them under an explicit performance-cost trade-off. Extensive experiments across ten benchmarks demonstrate that SkillOrchestra outperforms SoTA RL-based orchestrators by up to 22.5% with 700x and 300x learning cost reduction compared to Router-R1 and ToolOrchestra, respectively. These results show that explicit skill modeling enables scalable, interpretable, and sample-efficient orchestration, offering a principled alternative to data-intensive RL-based approaches. The code is available at: https://github.com/jiayuww/SkillOrchestra.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.