OneMillion-Bench: 언어 에이전트가 인간 전문가와 얼마나 동떨어져 있는가?
\$OneMillion-Bench: How Far are Language Agents from Human Experts?
언어 모델(LM)이 단순한 챗봇에서부터 다단계 추론과 도구 활용 능력을 갖춘 장기적인 에이전트로 발전함에 따라, 기존의 벤치마크는 여전히 구조화된 또는 시험 형태의 과제에 국한되어 있으며, 실제 업무 환경의 요구를 충족하지 못합니다. 이에 따라, 우리는 법률, 금융, 산업, 의료, 자연과학 분야를 포괄하며 경제적으로 중요한 시나리오에서 에이전트의 성능을 평가하기 위해 설계된 400개의 전문가가 선별한 과제 모음인 OneMillion-Bench를 소개합니다. 기존 연구와 달리, 이 벤치마크는 권위 있는 자료를 검색하고, 상충되는 증거를 해결하며, 특정 분야의 규칙을 적용하고, 제약 조건에 따른 결정을 내리는 것을 요구합니다. 여기서 정답은 최종 결과뿐만 아니라 추론 과정에 크게 의존합니다. 우리는 사실 정확성, 논리적 일관성, 실용적 타당성, 전문성 준수를 평가하는 기준으로 에이전트의 성능을 평가하며, 전문가 수준의 문제에 집중하여 에이전트 간의 의미 있는 차이를 보장합니다. OneMillion-Bench는 에이전트의 신뢰성, 전문성 및 실제 적용 가능성을 평가하기 위한 통합 테스트 환경을 제공합니다.
As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \$OneMillion-Bench \$OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.