2602.07294v3 Feb 07, 2026 cs.CE

Fin-RATE: LLM의 SEC 제출 서류 분석 및 추적 성능 평가를 위한 실제 금융 분석 벤치마크

Fin-RATE: A Real-world Financial Analytics and Tracking Evaluation Benchmark for LLMs on SEC Filings

Ali Maatouk
Ali Maatouk
Citations: 134
h-index: 6
L. Tassiulas
L. Tassiulas
Citations: 741
h-index: 14
Rex Ying
Rex Ying
Citations: 159
h-index: 6
Yidong Jiang
Yidong Jiang
Citations: 10
h-index: 2
Junrong Chen
Junrong Chen
Citations: 30
h-index: 2
Eftychia Makri
Eftychia Makri
Yale University
Citations: 60
h-index: 4
Jialin Chen
Jialin Chen
Citations: 5
h-index: 1
P. Li
P. Li
Citations: 26
h-index: 3
Eliot Brenner
Eliot Brenner
Citations: 144
h-index: 5
Bing Xiang
Bing Xiang
Citations: 16
h-index: 1

대규모 언어 모델(LLM)이 금융 분야에 널리 활용됨에 따라, 복잡한 규제 공시 내용을 분석하는 능력이 중요해지고 있습니다. 그러나 기존 벤치마크는 종종 개별적인 세부 사항에만 초점을 맞추어, 여러 문서, 보고 기간 및 기업 간의 정보를 종합적으로 분석하는 전문적인 업무의 복잡성을 제대로 반영하지 못합니다. 또한, 이러한 벤치마크는 오류가 검색 실패, 생성 부정확성, 특정 분야에 대한 추론 오류, 또는 쿼리 또는 맥락의 오해로 인해 발생하는지 명확하게 구분하지 못하여, 성능 저하의 정확한 원인을 진단하기 어렵습니다. 이러한 문제점을 해결하기 위해, 본 연구에서는 미국 증권거래위원회(SEC) 제출 서류를 기반으로 구축된 벤치마크인 Fin-RATE를 소개합니다. Fin-RATE는 세 가지 경로를 통해 금융 분석가의 업무 흐름을 반영합니다: 개별 공시 내의 세부 사항에 대한 추론, 공유 주제 하에서의 기업 간 비교, 그리고 동일 기업의 보고 기간에 따른 장기 추적. 본 연구에서는 오픈 소스, 폐쇄 소스 및 금융 전문 모델을 포함한 17개의 주요 LLM을, 실제 맥락과 검색 증강 환경 모두에서 평가했습니다. 결과는 상당한 성능 저하를 보여주었으며, 작업이 단일 문서 기반 추론에서 장기 및 기업 간 분석으로 전환됨에 따라 정확도가 각각 18.60% 및 14.35% 감소했습니다. 이러한 성능 저하는 비교 과정에서의 환각 현상 증가, 시간 및 기업 간 불일치에 기인하며, 이는 추론 품질 및 사실 일관성 저하로 이어집니다. 이러한 제한 사항은 기존 벤치마크에서 공식적으로 분류하거나 정량화하지 못했습니다.

Original Abstract

With the increasing deployment of Large Language Models (LLMs) in the finance domain, LLMs are increasingly expected to parse complex regulatory disclosures. However, existing benchmarks often focus on isolated details, failing to reflect the complexity of professional analysis that requires synthesizing information across multiple documents, reporting periods, and corporate entities. Furthermore, these benchmarks do not disentangle whether errors arise from retrieval failures, generation inaccuracies, domain-specific reasoning mistakes, or misinterpretation of the query or context, making it difficult to precisely diagnose performance bottlenecks. To bridge these gaps, we introduce Fin-RATE, a benchmark built on U.S. Securities and Exchange Commission (SEC) filings and mirroring financial analyst workflows through three pathways: detail-oriented reasoning within individual disclosures, cross-entity comparison under shared topics, and longitudinal tracking of the same firm across reporting periods. We benchmark 17 leading LLMs, spanning open-source, closed-source, and finance-specialized models, under both ground-truth context and retrieval-augmented settings. Results show substantial performance degradation, with accuracy dropping by 18.60\% and 14.35\% as tasks shift from single-document reasoning to longitudinal and cross-entity analysis. This degradation is driven by increased comparison hallucinations, temporal and entity mismatches, and is further reflected in declines in reasoning quality and factual consistency--limitations that existing benchmarks have yet to formally categorize or quantify.

1 Citations
0 Influential
7 Altmetric
36.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!