2604.10015v2 Apr 11, 2026 cs.AI

FinTrace: 장기 금융 과제에 대한 LLM 도구 활용의 전반적인 경로 수준 평가

FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks

Xueqing Peng
Xueqing Peng
Citations: 561
h-index: 12
Lingfei Qian
Lingfei Qian
Citations: 288
h-index: 9
Jimin Huang
Jimin Huang
Citations: 193
h-index: 7
Yangyang Yu
Yangyang Yu
Citations: 701
h-index: 9
K. Subbalakshmi
K. Subbalakshmi
Citations: 223
h-index: 6
Haohang Li
Haohang Li
Citations: 707
h-index: 9
Weijin Liu
Weijin Liu
Citations: 5
h-index: 1
Anke Xu
Anke Xu
Citations: 0
h-index: 0
Zining Zhu
Zining Zhu
Citations: 42
h-index: 3
Jordan W. Suchow
Jordan W. Suchow
Citations: 1,974
h-index: 18
Yupeng Cao
Yupeng Cao
Citations: 378
h-index: 9
Wenbo Cao
Wenbo Cao
Citations: 12
h-index: 2
Minxue Tang
Minxue Tang
Citations: 7
h-index: 1
Zhiyuan Yao
Zhiyuan Yao
Citations: 303
h-index: 4

최근 연구에 따르면, 도구 활용 능력은 대규모 언어 모델(LLM)이 장기적인 금융 과제를 위해 외부 환경과 상호 작용할 수 있도록 합니다. 기존의 벤치마크는 금융 도구 활용을 평가하기 시작했지만, 제한된 시나리오에 초점을 맞추고 있으며, 경로 수준의 추론 품질을 파악하지 못하는 호출 수준의 지표에 의존합니다. 이러한 격차를 해소하기 위해, 우리는 34가지의 실제 금융 과제 범주에 걸쳐 다양한 난이도 수준을 가진 800개의 전문가가 주석을 단 경로로 구성된 벤치마크인 FinTrace를 소개합니다. FinTrace는 9가지 지표를 사용하여 рубрик 기반 평가 프로토콜을 사용하며, 이 지표들은 4가지 축(행동 정확성, 실행 효율성, 프로세스 품질, 출력 품질)을 따라 구성되어 LLM의 도구 활용 행동을 미세하게 평가할 수 있도록 합니다. 13개의 LLM을 평가한 결과, 최첨단 모델은 뛰어난 도구 선택 능력을 보여주지만, 모든 모델이 정보 활용 및 최종 답변 품질에 어려움을 겪으며, 올바른 도구를 사용하는 것과 그 출력에 효과적으로 추론하는 것 사이의 중요한 격차가 있음을 보여줍니다. 진단 수준을 넘어, 우리는 금융 도구 활용을 위한 최초의 경로 수준 선호 데이터셋인 FinTrace-Training을 구축했습니다. 이 데이터셋은 8,196개의 선별된 경로와 도구를 활용한 문맥, 그리고 선호 쌍으로 구성되어 있습니다. 우리는 지도 학습을 통해 Qwen-3.5-9B를 미세 조정하고, 그 후 직접 선호 최적화(DPO)를 적용하여 FinTrace-Training으로 학습한 결과, 중간 추론 지표가 지속적으로 개선되는 것을 확인했습니다. DPO는 실패 모드를 더 효과적으로 억제했습니다. 그러나, 전체적인 답변 품질은 여전히 병목 현상이며, 경로 수준의 개선 사항이 최종 출력 품질에 완전히 반영되지 않고 있음을 나타냅니다.

Original Abstract

Recent studies demonstrate that tool-calling capability enables large language models (LLMs) to interact with external environments for long-horizon financial tasks. While existing benchmarks have begun evaluating financial tool calling, they focus on limited scenarios and rely on call-level metrics that fail to capture trajectory-level reasoning quality. To address this gap, we introduce FinTrace, a benchmark comprising 800 expert-annotated trajectories spanning 34 real-world financial task categories across multiple difficulty levels. FinTrace employs a rubric-based evaluation protocol with nine metrics organized along four axes -- action correctness, execution efficiency, process quality, and output quality -- enabling fine-grained assessment of LLM tool-calling behavior. Our evaluation of 13 LLMs reveals that while frontier models achieve strong tool selection, all models struggle with information utilization and final answer quality, exposing a critical gap between invoking the right tools and reasoning effectively over their outputs. To move beyond diagnosis, we construct FinTrace-Training, the first trajectory-level preference dataset for financial tool-calling, containing 8,196 curated trajectories with tool-augmented contexts and preference pairs. We fine-tune Qwen-3.5-9B using supervised fine-tuning followed by direct preference optimization (DPO) and show that training on FinTrace-Training consistently improves intermediate reasoning metrics, with DPO more effectively suppressing failure modes. However, end-to-end answer quality remains a bottleneck, indicating that trajectory-level improvements do not yet fully propagate to final output quality.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!