BizFinBench.v2: 전문가 수준의 금융 역량 정렬을 위한 통합 이중 모드 이중 언어 벤치마크
BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
대규모 언어 모델은 급속히 발전하여 금융 운영의 지능화를 위한 핵심 기술로 부상했습니다. 그러나 기존 벤치마크는 시뮬레이션되거나 범용적인 샘플에 의존하고, 단일한 오프라인 정적 시나리오에 치중하는 등의 한계가 있었습니다. 그 결과, 금융 서비스에 요구되는 현장성과 실시간 대응성을 충족하지 못해 벤치마크 성능과 실제 운영 효율성 간에 큰 괴리가 발생했습니다. 이를 해결하기 위해, 우리는 중국 및 미국 주식 시장의 실제 비즈니스 데이터에 기반하고 온라인 평가를 통합한 최초의 대규모 평가 벤치마크인 BizFinBench.v2를 제안합니다. 금융 플랫폼의 실제 사용자 질의에 대한 군집 분석을 통해 4가지 핵심 비즈니스 시나리오 전반에 걸쳐 8개의 기본 과제와 2개의 온라인 과제를 도출하고, 총 29,578쌍의 전문가 수준 Q&A 데이터를 구축했습니다. 실험 결과, ChatGPT-5는 주요 과제에서 61.5%의 높은 정확도를 보였으나 금융 전문가와는 여전히 상당한 격차가 있었으며, 온라인 과제에서는 DeepSeek-R1이 타 상용 LLM을 능가하는 성능을 보였습니다. 오류 분석을 통해 실제 금융 비즈니스 환경에서 기존 모델의 구체적인 역량 부족 또한 확인했습니다. BizFinBench.v2는 기존 벤치마크의 한계를 넘어 LLM의 금융 역량을 비즈니스 수준에서 분석하고, 금융 분야에 LLM을 널리 도입할 때 그 효용성을 평가할 수 있는 정확한 기준을 제공합니다. 데이터와 코드는 https://github.com/HiThink-Research/BizFinBench.v2 에서 공개됩니다.
Large language models have undergone rapid evolution, emerging as a pivotal technology for intelligence in financial operations. However, existing benchmarks are often constrained by pitfalls such as reliance on simulated or general-purpose samples and a focus on singular, offline static scenarios. Consequently, they fail to align with the requirements for authenticity and real-time responsiveness in financial services, leading to a significant discrepancy between benchmark performance and actual operational efficacy. To address this, we introduce BizFinBench.v2, the first large-scale evaluation benchmark grounded in authentic business data from both Chinese and U.S. equity markets, integrating online assessment. We performed clustering analysis on authentic user queries from financial platforms, resulting in eight fundamental tasks and two online tasks across four core business scenarios, totaling 29,578 expert-level Q&A pairs. Experimental results demonstrate that ChatGPT-5 achieves a prominent 61.5% accuracy in main tasks, though a substantial gap relative to financial experts persists; in online tasks, DeepSeek-R1 outperforms all other commercial LLMs. Error analysis further identifies the specific capability deficiencies of existing models within practical financial business contexts. BizFinBench.v2 transcends the limitations of current benchmarks, achieving a business-level deconstruction of LLM financial capabilities and providing a precise basis for evaluating efficacy in the widespread deployment of LLMs within the financial domain. The data and code are available at https://github.com/HiThink-Research/BizFinBench.v2.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.