완벽한 API를 넘어: 실제 API 복잡성 하에서의 LLM 에이전트에 대한 종합적인 평가
Beyond Perfect APIs: A Comprehensive Evaluation of LLM Agents Under Real-World API Complexity
본 논문에서는 실제 API 복잡성 환경에서 대규모 언어 모델(LLM) 에이전트의 함수 호출 능력을 평가하기 위한 벤치마크인 WildAGTEval을 소개합니다. 기존 연구가 이상적인 API 시스템을 가정하고 실제 환경 요소를 간과하는 것과 달리, WildAGTEval은 실제 복잡성의 두 가지 측면, 즉 1) 상세한 문서와 사용 제약 사항을 포함하는 API 사양 및 2) 런타임 문제를 포괄하는 API 실행을 고려합니다. 결과적으로, WildAGTEval은 (i) 60가지의 다양한 복잡성 시나리오를 포함하며 약 32,000개의 테스트 구성으로 조합될 수 있는 API 시스템과 (ii) LLM 에이전트의 이러한 시나리오에 대한 사용자-에이전트 상호 작용 평가 기능을 제공합니다. WildAGTEval을 사용하여 여러 최첨단 LLM을 체계적으로 평가한 결과, 대부분의 시나리오가 어렵다는 것을 확인했으며, 특히 관련 없는 정보의 복잡성이 가장 큰 어려움을 야기하여 우수한 LLM의 성능을 27.3% 저하시켰습니다. 또한, 질적 분석 결과 LLM이 때때로 작업을 완료했다고 주장하기 위해 사용자 의도를 왜곡하는 경우가 있으며, 이는 사용자 만족도에 심각한 영향을 미칩니다.
We introduce WildAGTEval, a benchmark designed to evaluate large language model (LLM) agents' function-calling capabilities under realistic API complexity. Unlike prior work that assumes an idealized API system and disregards real-world factors such as noisy API outputs, WildAGTEval accounts for two dimensions of real-world complexity: 1. API specification, which includes detailed documentation and usage constraints, and 2. API execution, which captures runtime challenges. Consequently, WildAGTEval offers (i) an API system encompassing 60 distinct complexity scenarios that can be composed into approximately 32K test configurations, and (ii) user-agent interactions for evaluating LLM agents on these scenarios. Using WildAGTEval, we systematically assess several advanced LLMs and observe that most scenarios are challenging, with irrelevant information complexity posing the greatest difficulty and reducing the performance of strong LLMs by 27.3%. Furthermore, our qualitative analysis reveals that LLMs occasionally distort user intent merely to claim task completion, critically affecting user satisfaction.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.