BankerToolBench: 엔드투엔드 투자은행 업무 워크플로우에서 AI 에이전트 평가
BankerToolBench: Evaluating AI Agents in End-to-End Investment Banking Workflows
기존의 AI 벤치마크는 전문적인 업무 워크플로우에서 경제적으로 의미 있는 발전을 평가할 만큼의 정확성을 제공하지 못합니다. 고부가가치, 노동 집약적인 직업 분야에서 최첨단 AI 에이전트를 평가하기 위해, 저희는 BankerToolBench (BTB)를 소개합니다. BTB는 주니어 투자은행원들이 일상적으로 수행하는 엔드투엔드 분석 워크플로우의 오픈 소스 벤치마크입니다. 대표적인 업무 환경을 기반으로 한 생태학적으로 타당한 벤치마크를 개발하기 위해, 저희는 선도적인 기업의 502명의 투자은행원들과 협력했습니다. BTB는 에이전트가 데이터룸을 탐색하고, 산업용 도구(시장 데이터 플랫폼, SEC 제출물 데이터베이스)를 사용하며, 엑셀 재무 모델, 파워포인트 프레젠테이션 자료, PDF/워드 보고서 등 다중 파일 결과물을 생성하여 선임 은행원의 요청을 수행하도록 요구합니다. BTB 작업을 완료하는 데 은행원들은 최대 21시간이 소요되며, 이는 AI에게 이 작업을 성공적으로 위임하는 것의 경제적 중요성을 강조합니다. BTB는 모든 LLM 또는 에이전트를 자동으로 평가할 수 있으며, 베테랑 투자은행원들이 정의한 100개 이상의 평가 기준에 따라 결과물을 평가하여 이해관계자의 유용성을 측정합니다. 9개의 최첨단 모델을 테스트한 결과, 가장 성능이 좋은 모델(GPT-5.4)조차도 평가 기준의 거의 절반을 충족하지 못했으며, 은행원들은 이 모델의 결과물 중 0%가 고객에게 바로 제공될 수 있다고 평가했습니다. 저희의 실패 분석 결과는 고위험 전문 업무 워크플로우에서 에이전트 AI의 주요 장애 요인과 개선 방향을 보여줍니다.
Existing AI benchmarks lack the fidelity to assess economically meaningful progress on professional workflows. To evaluate frontier AI agents in a high-value, labor-intensive profession, we introduce BankerToolBench (BTB): an open-source benchmark of end-to-end analytical workflows routinely performed by junior investment bankers. To develop an ecologically valid benchmark grounded in representative work environments, we collaborated with 502 investment bankers from leading firms. BTB requires agents to execute senior banker requests by navigating data rooms, using industry tools (market data platform, SEC filings database), and generating multi-file deliverables--including Excel financial models, PowerPoint pitch decks, and PDF/Word reports. Completing a BTB task takes bankers up to 21 hours, underscoring the economic stakes of successfully delegating this work to AI. BTB enables automated evaluation of any LLM or agent, scoring deliverables against 100+ rubric criteria defined by veteran investment bankers to capture stakeholder utility. Testing 9 frontier models, we find that even the best-performing model (GPT-5.4) fails nearly half of the rubric criteria and bankers rate 0% of its outputs as client-ready. Our failure analysis reveals key obstacles (such as breakdowns in cross-artifact consistency) and improvement directions for agentic AI in high-stakes professional workflows.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.