2603.07980v1 Mar 09, 2026 cs.LG

OneMillion-Bench: 언어 에이전트가 인간 전문가와 얼마나 동떨어져 있는가?

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Zaiyuan Wang
Zaiyuan Wang
Citations: 162
h-index: 5
Lingyue Yin
Lingyue Yin
Citations: 18
h-index: 1
Ge Zhang
Ge Zhang
Citations: 69
h-index: 4
Zixia Jia
Zixia Jia
Citations: 38
h-index: 4
Jiaqi Li
Jiaqi Li
Citations: 281
h-index: 5
Qianyu Yang
Qianyu Yang
Citations: 14
h-index: 1
Yang Liu
Yang Liu
Citations: 19
h-index: 4
Junye Bai
Junye Bai
Citations: 0
h-index: 0
Hao Chen
Hao Chen
Citations: 1
h-index: 1
Kaiyuan Chen
Kaiyuan Chen
Citations: 62
h-index: 2
Tiliang Duan
Tiliang Duan
Citations: 0
h-index: 0
Jiayun Dong
Jiayun Dong
Citations: 115
h-index: 3
X. Hu
X. Hu
Citations: 61
h-index: 2
Tao Peng
Tao Peng
Citations: 5
h-index: 2
Yixin Ren
Yixin Ren
Citations: 60
h-index: 2
Ran Tian
Ran Tian
Citations: 385
h-index: 9
Yang Xiao
Yang Xiao
Citations: 70
h-index: 5
Gang Yao
Gang Yao
Citations: 1
h-index: 1
Chunxuan Zhang
Chunxuan Zhang
Citations: 0
h-index: 0
Jianpeng Jiao
Jianpeng Jiao
Citations: 365
h-index: 5
Zilong Zheng
Zilong Zheng
Citations: 348
h-index: 6
Yu-Ting Gong
Yu-Ting Gong
Citations: 0
h-index: 0

언어 모델(LM)이 단순한 챗봇에서부터 다단계 추론과 도구 활용 능력을 갖춘 장기적인 에이전트로 발전함에 따라, 기존의 벤치마크는 여전히 구조화된 또는 시험 형태의 과제에 국한되어 있으며, 실제 업무 환경의 요구를 충족하지 못합니다. 이에 따라, 우리는 법률, 금융, 산업, 의료, 자연과학 분야를 포괄하며 경제적으로 중요한 시나리오에서 에이전트의 성능을 평가하기 위해 설계된 400개의 전문가가 선별한 과제 모음인 OneMillion-Bench를 소개합니다. 기존 연구와 달리, 이 벤치마크는 권위 있는 자료를 검색하고, 상충되는 증거를 해결하며, 특정 분야의 규칙을 적용하고, 제약 조건에 따른 결정을 내리는 것을 요구합니다. 여기서 정답은 최종 결과뿐만 아니라 추론 과정에 크게 의존합니다. 우리는 사실 정확성, 논리적 일관성, 실용적 타당성, 전문성 준수를 평가하는 기준으로 에이전트의 성능을 평가하며, 전문가 수준의 문제에 집중하여 에이전트 간의 의미 있는 차이를 보장합니다. OneMillion-Bench는 에이전트의 신뢰성, 전문성 및 실제 적용 가능성을 평가하기 위한 통합 테스트 환경을 제공합니다.

Original Abstract

As language models (LMs) evolve from chat assistants to long-horizon agents capable of multi-step reasoning and tool use, existing benchmarks remain largely confined to structured or exam-style tasks that fall short of real-world professional demands. To this end, we introduce \$OneMillion-Bench \$OneMillion-Bench, a benchmark of 400 expert-curated tasks spanning Law, Finance, Industry, Healthcare, and Natural Science, built to evaluate agents across economically consequential scenarios. Unlike prior work, the benchmark requires retrieving authoritative sources, resolving conflicting evidence, applying domain-specific rules, and making constraint decisions, where correctness depends as much on the reasoning process as the final answer. We adopt a rubric-based evaluation protocol scoring factual accuracy, logical coherence, practical feasibility, and professional compliance, focused on expert-level problems to ensure meaningful differentiation across agents. Together, \$OneMillion-Bench provides a unified testbed for assessing agentic reliability, professional depth, and practical readiness in domain-intensive scenarios.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!