AgentSelect: 내러티브 질의-요청 기반 에이전트 추천 벤치마크
AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation
LLM 에이전트는 작업 자동화의 실질적인 인터페이스로 빠르게 발전하고 있지만, 배포 가능한 구성 요소의 폭발적인 증가에 대응할 수 있는 체계적인 방법은 아직 부족합니다. 기존 LLM 순위 및 도구/에이전트 벤치마크는 개별 구성 요소를 독립적으로 평가하며, 작업, 지표 및 후보 풀에 따라 단편적으로 구성되어 있어 중요한 연구 과제를 야기합니다. 즉, 백본 모델과 도구 키트를 결합하여 전체 에이전트 구성을 추천하도록 학습하는 데 필요한 질의 기반의 감독 데이터가 부족합니다. 우리는 이러한 격차를 해결하기 위해 AgentSelect를 제안합니다. AgentSelect는 에이전트 선택을 능력 프로필을 기반으로 한 내러티브 질의-요청 에이전트 추천 문제로 재정의하고, 다양한 평가 결과물을 통일된, 긍정 데이터만으로 구성된 상호 작용 데이터로 체계적으로 변환합니다. AgentSelect는 111,179개의 질의, 107,721개의 배포 가능한 에이전트, 그리고 40개 이상의 출처에서 수집된 251,103개의 상호 작용 레코드로 구성되어 있으며, LLM 전용, 도구 키트 전용, 그리고 복합 에이전트를 모두 포함합니다. 우리의 분석 결과는, 기존의 일반적인 패턴 재사용에서 희소하고 개별적인 감독 데이터로의 전환이 이루어지고 있으며, 인기 기반의 협업 필터링/그래프 신경망 방법은 취약해지고 콘텐츠 인식 기반의 능력 매칭이 필수적이라는 것을 보여줍니다. 또한, Part~III에서 합성된 복합 상호 작용 데이터는 학습이 가능하며, 제어된 반사실적 편집을 통해 능력에 민감한 동작을 유도하고, 실제 복합 환경에서의 적용 범위를 향상시킵니다. AgentSelect로 학습된 모델은 공개 에이전트 마켓플레이스(MuleRun)로 전이되어, 새로운 항목에 대해 일관된 성능 향상을 보여줍니다. 전반적으로, AgentSelect는 에이전트 추천을 위한 최초의 통합 데이터 및 평가 인프라를 제공하며, 이는 에이전트 생태계를 연구하고 발전시키는 데 필요한 재현 가능한 기반을 구축합니다.
LLM agents are rapidly becoming the practical interface for task automation, yet the ecosystem lacks a principled way to choose among an exploding space of deployable configurations. Existing LLM leaderboards and tool/agent benchmarks evaluate components in isolation and remain fragmented across tasks, metrics, and candidate pools, leaving a critical research gap: there is little query-conditioned supervision for learning to recommend end-to-end agent configurations that couple a backbone model with a toolkit. We address this gap with AgentSelect, a benchmark that reframes agent selection as narrative query-to-agent recommendation over capability profiles and systematically converts heterogeneous evaluation artifacts into unified, positive-only interaction data. AgentSelectcomprises 111,179 queries, 107,721 deployable agents, and 251,103 interaction records aggregated from 40+ sources, spanning LLM-only, toolkit-only, and compositional agents. Our analyses reveal a regime shift from dense head reuse to long-tail, near one-off supervision, where popularity-based CF/GNN methods become fragile and content-aware capability matching is essential. We further show that Part~III synthesized compositional interactions are learnable, induce capability-sensitive behavior under controlled counterfactual edits, and improve coverage over realistic compositions; models trained on AgentSelect also transfer to a public agent marketplace (MuleRun), yielding consistent gains on an unseen catalog. Overall, AgentSelect provides the first unified data and evaluation infrastructure for agent recommendation, which establishes a reproducible foundation to study and accelerate the emerging agent ecosystem.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.