2603.01203v1 Mar 01, 2026 cs.AI

에이전트 개발이 실제 업무를 얼마나 잘 반영하는가?

How Well Does Agent Development Reflect Real-World Work?

Valerie Chen
Valerie Chen
Carnegie Mellon University
Citations: 892
h-index: 14
Z. Wang
Z. Wang
Citations: 501
h-index: 9
S. Vijayvargiya
S. Vijayvargiya
Citations: 50
h-index: 4
Aspen Chen
Aspen Chen
Citations: 0
h-index: 0
Han Zhang
Han Zhang
Citations: 1
h-index: 1
Venu Arvind Arangarajan
Venu Arvind Arangarajan
Citations: 0
h-index: 0
Jett Chen
Jett Chen
Citations: 0
h-index: 0
Diyi Yang
Diyi Yang
Citations: 29
h-index: 2
Daniel Fried
Daniel Fried
Citations: 256
h-index: 6
Graham Neubig
Graham Neubig
Citations: 592
h-index: 12

인공지능 에이전트는 점점 더 인간의 업무와 관련된 벤치마크를 기반으로 개발되고 평가되지만, 이러한 벤치마킹 노력이 전체 노동 시장을 얼마나 잘 대표하는지는 여전히 불분명합니다. 본 연구에서는 벤치마크 인스턴스를 업무 영역 및 기술과 연결하여, 에이전트 개발 노력과 실제 인간의 업무 분포 간의 관계를 체계적으로 분석합니다. 먼저, 43개의 벤치마크와 72,342개의 작업을 분석하여, 미국 노동 시장의 1,016개 모든 직업군에서 인간의 고용 및 자본 배분과의 일치성을 측정합니다. 분석 결과, 에이전트 개발은 주로 프로그래밍 중심적인 경향을 보이는 반면, 인간의 노동과 경제적 가치가 집중된 영역과는 상당한 차이가 있음을 확인했습니다. 현재 에이전트가 목표로 하는 업무 영역 내에서, 에이전트의 자율성 수준을 측정하여 현재 에이전트의 유용성을 구체적으로 파악하고, 다양한 업무 시나리오에서의 에이전트 상호 작용 전략에 대한 실질적인 지침을 제공합니다. 이러한 연구 결과를 바탕으로, 사회적으로 중요하고 기술적으로 어려운 형태의 업무를 보다 잘 반영하는 벤치마크 설계에 대한 세 가지 측정 가능한 원칙(포괄성, 현실성, 세분화된 평가)을 제안합니다.

Original Abstract

AI agents are increasingly developed and evaluated on benchmarks relevant to human work, yet it remains unclear how representative these benchmarking efforts are of the labor market as a whole. In this work, we systematically study the relationship between agent development efforts and the distribution of real-world human work by mapping benchmark instances to work domains and skills. We first analyze 43 benchmarks and 72,342 tasks, measuring their alignment with human employment and capital allocation across all 1,016 real-world occupations in the U.S. labor market. We reveal substantial mismatches between agent development that tends to be programming-centric, and the categories in which human labor and economic value are concentrated. Within work areas that agents currently target, we further characterize current agent utility by measuring their autonomy levels, providing practical guidance for agent interaction strategies across work scenarios. Building on these findings, we propose three measurable principles for designing benchmarks that better capture socially important and technically challenging forms of work: coverage, realism, and granular evaluation.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!