FCMBench: 실제 응용을 위한 포괄적인 금융 신용 다중 모드 벤치마크
FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications
다중 모드 AI가 신용 위험 평가 및 문서 검토에 널리 사용됨에 따라, (1) 금융 신용 신청에 특화된 문서 및 워크플로우를 반영하고, (2) 신용 관련 이해와 실제 환경에서의 견고성을 포함하며, (3) 실용성을 희생하지 않고 개인 정보 보호 규정을 준수하는 도메인 특화 벤치마크가 시급하게 필요합니다. 본 논문에서는 실제 응용을 위한 대규모 금융 신용 다중 모드 벤치마크인 FCMBench-V1.0을 소개합니다. 이 벤치마크는 18가지 주요 인증 유형을 포함하며, 4,043개의 개인 정보 보호 규정을 준수하는 이미지와 8,446개의 질의응답(QA) 샘플로 구성되어 있습니다. FCMBench 평가 프레임워크는 인지(Perception), 추론(Reasoning), 견고성(Robustness)의 세 가지 측면으로 구성됩니다. 여기에는 3가지 기본 인지 작업, 시각적 증거에 대한 의사 결정 중심의 이해를 요구하는 4가지 신용 관련 추론 작업, 그리고 견고성 스트레스 테스트를 위한 10가지 실제 환경의 데이터 수집 관련 요소가 포함됩니다. 개인 정보 보호 규정 준수와 현실성 사이의 균형을 맞추기 위해, 모든 샘플은 폐쇄형 합성-캡처 파이프라인을 통해 생성되었습니다. 문서 템플릿은 수동으로 합성하고 가상 콘텐츠를 추가하며, 시나리오에 맞는 이미지는 내부적으로 캡처했습니다. 이러한 설계는 웹에서 가져온 이미지나 공개적으로 배포된 이미지를 사용하지 않음으로써 사전 훈련 데이터 유출을 방지합니다. FCMBench는 최신 시각-언어 모델 간의 성능 차이와 견고성을 효과적으로 평가할 수 있습니다. 14개의 주요 AI 기업 및 연구 기관에서 개발한 23개의 최첨단 시각-언어 모델(VLMs)에 대한 광범위한 실험을 수행했습니다. 그 결과, 상용 모델 중에서는 Gemini 3 Pro가 가장 높은 F1(\%) 점수(64.61)를, 오픈 소스 모델 중에서는 Qwen3-VL-235B가 가장 높은 점수(57.27)를, 그리고 금융 신용에 특화된 모델인 Qfin-VL-Instruct가 전체적으로 가장 높은 점수(64.92)를 기록했습니다. 견고성 평가 결과, 성능이 우수한 모델에서도 데이터 수집 관련 요소가 있을 경우 성능 저하가 발생하는 것을 확인했습니다.
As multimodal AI becomes widely used for credit risk assessment and document review, a domain-specific benchmark is urgently needed that (1) reflects documents and workflows specific to financial credit applications, (2) includes credit-specific understanding and real-world robustness, and (3) preserves privacy compliance without sacrificing practical utility. Here, we introduce FCMBench-V1.0 -- a large-scale financial credit multimodal benchmark for real-world applications, covering 18 core certificate types, with 4,043 privacy-compliant images and 8,446 QA samples. The FCMBench evaluation framework consists of three dimensions: Perception, Reasoning, and Robustness, including 3 foundational perception tasks, 4 credit-specific reasoning tasks that require decision-oriented understanding of visual evidence, and 10 real-world acquisition artifact types for robustness stress testing. To reconcile compliance with realism, we construct all samples via a closed synthesis-capture pipeline: we manually synthesize document templates with virtual content and capture scenario-aware images in-house. This design also mitigates pre-training data leakage by avoiding web-sourced or publicly released images. FCMBench can effectively discriminate performance disparities and robustness across modern vision-language models. Extensive experiments were conducted on 23 state-of-the-art vision-language models (VLMs) from 14 top AI companies and research institutes. Among them, Gemini 3 Pro achieves the best F1(\%) score as a commercial model (64.61), Qwen3-VL-235B achieves the best score as an open-source baseline (57.27), and our financial credit-specific model, Qfin-VL-Instruct, achieves the top overall score (64.92). Robustness evaluations show that even top-performing models suffer noticeable performance drops under acquisition artifacts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.