2604.05364v1 Apr 07, 2026 cs.AI

TFRBench: 예측 시스템의 추론 능력을 평가하기 위한 벤치마크

TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems

Tomas Pfister
Tomas Pfister
Citations: 55
h-index: 5
Jinsung Yoon
Jinsung Yoon
Citations: 23
h-index: 3
Palash Goyal
Palash Goyal
Citations: 56
h-index: 4
Mihir Parmar
Mihir Parmar
Citations: 21
h-index: 2
Yiwen Song
Yiwen Song
Citations: 92
h-index: 4
Hamid Palangi
Hamid Palangi
Citations: 735
h-index: 14
Md. Atik Ahamed
Md. Atik Ahamed
Citations: 297
h-index: 7
Long T. Le
Long T. Le
Citations: 626
h-index: 12
Qiang Cheng
Qiang Cheng
Citations: 200
h-index: 4
Chun-Liang Li
Chun-Liang Li
Citations: 2,414
h-index: 14

본 논문에서는 예측 시스템의 추론 능력을 평가하도록 설계된 최초의 벤치마크인 TFRBench를 소개합니다. 기존의 시계열 예측 평가는 수치적 정확도에만 초점을 맞추어, 기반 모델을 '블랙 박스'로 취급했습니다. TFRBench는 기존 벤치마크와 달리, 예측 시스템이 생성하는 추론, 특히 채널 간의 의존성, 추세 및 외부 이벤트에 대한 분석을 평가하기 위한 프로토콜을 제공합니다. 이를 위해, 우리는 체계적인 다중 에이전트 프레임워크를 제안합니다. 이 프레임워크는 반복적인 검증 루프를 사용하여 수치적으로 검증 가능한 추론 과정을 생성합니다. 5개 도메인에 걸쳐 10개의 데이터 세트를 사용하여 평가한 결과, 이러한 추론이 인과적으로 효과적이며, 평가에 유용하다는 것을 확인했습니다. 또한, 생성된 추론 과정을 LLM에 제공하면 직접적인 수치 예측에 비해 예측 정확도가 크게 향상됩니다 (예: 평균적으로 약 40.2%에서 56.6%로 증가). 이는 생성된 추론의 품질을 검증하는 결과입니다. 반면, 벤치마킹 실험 결과, 상용 LLM은 추론 능력(LLM-as-a-Judge 점수 낮음)과 수치 예측 모두에서 지속적으로 어려움을 겪으며, 종종 특정 도메인의 역학을 제대로 파악하지 못하는 것으로 나타났습니다. 따라서 TFRBench는 시계열 예측 분야에서 해석 가능하고 추론 기반의 평가라는 새로운 기준을 제시합니다. 본 벤치마크는 다음 주소에서 이용 가능합니다: https://tfrbench.github.io

Original Abstract

We introduce TFRBench, the first benchmark designed to evaluate the reasoning capabilities of forecasting systems. Traditionally, time-series forecasting has been evaluated solely on numerical accuracy, treating foundation models as ``black boxes.'' Unlike existing benchmarks, TFRBench provides a protocol for evaluating the reasoning generated by forecasting systems--specifically their analysis of cross-channel dependencies, trends, and external events. To enable this, we propose a systematic multi-agent framework that utilizes an iterative verification loop to synthesize numerically grounded reasoning traces. Spanning ten datasets across five domains, our evaluation confirms that this reasoning is causally effective; useful for evaluation; and prompting LLMs with our generated traces significantly improves forecasting accuracy compared to direct numerical prediction (e.g., avg. $\sim40.2\%\to56.6\%)$, validating the quality of our reasoning. Conversely, benchmarking experiments reveal that off-the-shelf LLMs consistently struggle with both reasoning (lower LLM-as-a-Judge scores) and numerical forecasting, frequently failing to capture domain-specific dynamics. TFRBench thus establishes a new standard for interpretable, reasoning-based evaluation in time-series forecasting. Our benchmark is available at: https://tfrbench.github.io

1 Citations
0 Influential
7 Altmetric
36.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!