금융 문서 질의응답을 위한 능동적 검색 기반 생성 모델
Agentic Retrieval-Augmented Generation for Financial Document Question Answering
금융 문서 질의응답(QA)은 기업 공시 문서에 흩어져 있는 다양한 형태의 증거(구조화된 표, 텍스트 설명, 각주 등)에 대한 복잡하고 다단계의 수치적 추론을 요구합니다. 기존의 검색 기반 생성(RAG) 방식은 단일 단계의 검색-생성 파이프라인을 사용하기 때문에, 금융 분석에 흔히 나타나는 복합적인 추론 과정을 처리하는 데 어려움을 겪습니다. 본 연구에서는 금융 분야의 정밀성을 고려하여 설계된 능동적 RAG 프레임워크인 FinAgent-RAG를 제안합니다. FinAgent-RAG는 자체 검증 기능을 갖춘 반복적인 검색-추론 루프를 통해 작동하며, 다음과 같은 세 가지 분야별 혁신을 통합합니다. (1) 의미적으로 유사하지만 수치적으로 다른 금융 문서를 구별하기 위해 Hard Negative Mining을 사용하여 학습된 Contrastive Financial Retriever, (2) 오류가 발생하기 쉬운 LLM 기반의 정신 연산을 사용하지 않고 정확한 산술 연산을 위한 실행 가능한 Python 코드를 생성하는 Program-of-Thought 추론 모듈, (3) 질문의 복잡성에 따라 계산 자원을 동적으로 할당하여 API 비용을 41.3% 절감하면서 정확도를 유지하는 Adaptive Strategy Router. FinQA, ConvFinQA, TAT-QA의 세 가지 벤치마크 데이터 세트에 대한 광범위한 실험 결과, FinAgent-RAG는 각각 76.81%, 78.46%, 74.96%의 실행 정확도를 달성했으며, 가장 강력한 기준 모델보다 5.62~9.32%p 더 높은 성능을 보였습니다. Ablation 연구, 네 가지 LLM을 사용한 교차 백본 평가, 배포 비용 분석을 통해 본 프레임워크의 견고성과 금융 기관에서의 실용성을 확인했습니다.
Financial document question answering (QA) demands complex multi-step numerical reasoning over heterogeneous evidence--structured tables, textual narratives, and footnotes--scattered across corporate filings. Existing retrieval-augmented generation (RAG) approaches adopt a single-pass retrieve-then-generate paradigm that struggles with the compositional reasoning chains prevalent in financial analysis. We propose FinAgent-RAG, an agentic RAG framework that orchestrates iterative retrieval-reasoning loops with self-verification, specifically engineered for the precision requirements of financial numerical reasoning. The framework integrates three domain-specific innovations: (1) a Contrastive Financial Retriever trained with hard negative mining to distinguish semantically similar but numerically distinct financial passages, (2) a Program-of-Thought reasoning module that generates executable Python code for precise arithmetic rather than relying on error-prone LLM-based mental computation, and (3) an Adaptive Strategy Router that dynamically allocates computational resources based on question complexity, reducing API costs by 41.3% on FinQA while preserving accuracy. Extensive experiments on three benchmark datasets--FinQA, ConvFinQA, and TAT-QA--demonstrate that FinAgent-RAG achieves 76.81%, 78.46%, and 74.96% execution accuracy respectively, outperforming the strongest baseline by 5.62--9.32 percentage points. Ablation studies, cross-backbone evaluation with four LLMs, and deployment cost analysis confirm the framework's robustness and practical viability for financial institutions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.