LiveAgentBench: 104가지의 실제 문제 상황을 포괄하는 에이전트 시스템 성능 평가 벤치마크
LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges
대규모 언어 모델의 성능이 향상됨에 따라, 범용 인공지능 에이전트는 실제 응용 분야에서 점점 더 많이 활용되고 있습니다. 그러나 기존의 벤치마크는 실제 사용자의 작업을 정확하게 반영하지 못하는 중요한 한계를 가지고 있습니다. 이러한 격차를 해소하기 위해, 우리는 104가지 시나리오로 구성된 포괄적인 벤치마크인 LiveAgentBench를 제안합니다. LiveAgentBench는 소셜 미디어에서 수집된 공개 질문과 실제 제품 관련 정보를 기반으로 구축되었습니다. 우리의 핵심 접근 방식은 Social Perception-Driven Data Generation (SPDG) 방법으로, 개발된 새로운 프로세스를 통해 각 질문의 실제 관련성, 작업 복잡성 및 결과 검증 가능성을 보장합니다. 우리는 LiveAgentBench를 사용하여 다양한 모델, 프레임워크 및 상용 제품을 평가하고, 실제 성능을 분석하며 개선이 필요한 부분을 파악했습니다. 이번 릴리스에는 검증을 위한 125개 작업과 테스트를 위한 249개 작업, 총 374개의 작업이 포함되어 있습니다. SPDG 프로세스를 통해 실제 상호 작용에서 얻은 새로운 질문을 통해 지속적인 업데이트가 가능합니다.
As large language models grow more capable, general AI agents have become increasingly prevalent in practical applications. However, existing benchmarks face significant limitations, failing to represent real-world user tasks accurately. To address this gap, we present LiveAgentBench, a comprehensive benchmark with 104 scenarios that reflect real user requirements. It is constructed from publicly sourced questions on social media and real-world products. Central to our approach is the Social Perception-Driven Data Generation (SPDG) method, a novel process we developed to ensure each question's real-world relevance, task complexity, and result verifiability. We evaluate various models, frameworks, and commercial products using LiveAgentBench, revealing their practical performance and identifying areas for improvement. This release includes 374 tasks, with 125 for validation and 249 for testing. The SPDG process enables continuous updates with fresh queries from real-world interactions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.