FinTrace: 장기 금융 작업에 대한 LLM 도구 호출의 전체적인 경로 수준 평가
FinTrace: Holistic Trajectory-Level Evaluation of LLM Tool Calling for Long-Horizon Financial Tasks
최근 연구에 따르면, 도구 호출 기능은 대규모 언어 모델(LLM)이 장기적인 금융 작업을 위해 외부 환경과 상호 작용할 수 있도록 합니다. 기존의 벤치마크는 금융 도구 호출을 평가하기 시작했지만, 제한된 시나리오에 초점을 맞추고 있으며, 경로 수준의 추론 품질을 포착하지 못하는 호출 수준의 지표에 의존합니다. 이러한 격차를 해소하기 위해, 우리는 34가지의 실제 금융 작업 범주에 걸쳐 다양한 난이도 수준을 가진 800개의 전문가가 주석을 단 경로를 포함하는 벤치마크인 FinTrace를 소개합니다. FinTrace는 9가지 지표를 사용하여 행동 정확성, 실행 효율성, 프로세스 품질 및 출력 품질의 네 가지 축을 따라 체계적인 평가 프로토콜을 사용하며, 이를 통해 LLM의 도구 호출 동작을 세밀하게 평가할 수 있습니다. 13개의 LLM에 대한 평가 결과, 최첨단 모델은 강력한 도구 선택 능력을 보이지만, 모든 모델은 정보 활용 및 최종 답변 품질에 어려움을 겪으며, 올바른 도구를 호출하는 것과 그 출력에 대해 효과적으로 추론하는 것 사이의 중요한 격차가 있음을 보여줍니다. 진단에 그치지 않고, 우리는 금융 도구 호출을 위한 최초의 경로 수준 선호도 데이터셋인 FinTrace-Training을 구축했습니다. 이 데이터셋에는 도구로 보강된 컨텍스트와 선호도 쌍을 포함하는 8,196개의 큐레이션된 경로가 포함되어 있습니다. 우리는 지도 학습을 통해 Qwen-3.5-9B를 미세 조정하고, 직접 선호도 최적화(DPO)를 적용하여 FinTrace-Training으로 학습했을 때 중간 추론 지표가 일관되게 향상되는 것을 확인했습니다. DPO는 오류 발생 패턴을 효과적으로 억제합니다. 그러나 전체적인 답변 품질은 여전히 병목 현상이며, 경로 수준의 개선이 최종 출력 품질에 완전히 반영되지 않고 있음을 나타냅니다.
Recent studies demonstrate that tool-calling capability enables large language models (LLMs) to interact with external environments for long-horizon financial tasks. While existing benchmarks have begun evaluating financial tool calling, they focus on limited scenarios and rely on call-level metrics that fail to capture trajectory-level reasoning quality. To address this gap, we introduce FinTrace, a benchmark comprising 800 expert-annotated trajectories spanning 34 real-world financial task categories across multiple difficulty levels. FinTrace employs a rubric-based evaluation protocol with nine metrics organized along four axes -- action correctness, execution efficiency, process quality, and output quality -- enabling fine-grained assessment of LLM tool-calling behavior. Our evaluation of 13 LLMs reveals that while frontier models achieve strong tool selection, all models struggle with information utilization and final answer quality, exposing a critical gap between invoking the right tools and reasoning effectively over their outputs. To move beyond diagnosis, we construct FinTrace-Training, the first trajectory-level preference dataset for financial tool-calling, containing 8,196 curated trajectories with tool-augmented contexts and preference pairs. We fine-tune Qwen-3.5-9B using supervised fine-tuning followed by direct preference optimization (DPO) and show that training on FinTrace-Training consistently improves intermediate reasoning metrics, with DPO more effectively suppressing failure modes. However, end-to-end answer quality remains a bottleneck, indicating that trajectory-level improvements do not yet fully propagate to final output quality.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.