에이전트 기반 예측: 언어적 믿음을 순차적으로 베이즈 업데이트하는 방법
Agentic Forecasting using Sequential Bayesian Updating of Linguistic Beliefs
본 논문에서는 이진 예측을 위한 에이전트 기반 시스템인 BLF (Bayesian Linguistic Forecaster)를 제시하며, 이 시스템은 ForecastBench 벤치마크에서 최첨단 성능을 달성합니다. BLF는 다음과 같은 세 가지 핵심 아이디어에 기반합니다. (1) 언어적 믿음 상태: 수치적 확률 추정치와 자연어 증거 요약을 결합한 반정형 표현으로, LLM이 반복적인 도구 사용 루프의 각 단계에서 업데이트합니다. 이는 검색된 모든 증거를 지속적으로 확장되는 컨텍스트에 추가하는 일반적인 방식과 대조됩니다. (2) 계층적 다중 시험 집계: $K$개의 독립적인 시험을 실행하고, 데이터에 따라 결정되는 사전 지식을 사용하여 로짓 공간에서의 축소(shrinkage)를 통해 결과를 결합합니다. (3) 계층적 보정: 계층적 사전 지식을 사용한 플랫 스케일링(Platt scaling)을 통해, 기본 확률 분포가 치우쳐진 경우 극단적인 예측이 과도하게 축소되는 것을 방지합니다. ForecastBench 리더보드의 400개의 백테스팅 질문에 대해, BLF는 Cassi, GPT-5, Grok~4.20, Foresight-32B를 포함한 모든 최상위 공개 방법보다 뛰어난 성능을 보입니다. 분석 결과, 구조화된 믿음 상태는 웹 검색 접근과 거의 동일한 수준의 영향을 미치며, 축소 집계 및 계층적 보정은 각각 상당한 추가적인 성능 향상을 제공합니다. 또한, 누수 비율이 1.5% 미만인 강력한 백테스팅 프레임워크를 개발하고, 다양한 노이즈 요인을 제어하면서 다양한 방법 간의 비교를 위해 엄격한 통계적 방법론을 사용했습니다.
We present BLF (Bayesian Linguistic Forecaster), an agentic system for binary forecasting that achieves state-of-the-art performance on the ForecastBench benchmark. The system is built on three ideas. (1) A linguistic belief state: a semi-structured representation combining numerical probability estimates with natural-language evidence summaries, updated by the LLM at each step of an iterative tool-use loop. This contrasts with the common approach of appending all retrieved evidence to an ever-growing context. (2) Hierarchical multi-trial aggregation: running $K$ independent trials and combining them using logit-space shrinkage with a data-dependent prior. (3) Hierarchical calibration: Platt scaling with a hierarchical prior, which avoids over-shrinking extreme predictions for sources with skewed base rates. On 400 backtesting questions from the ForecastBench leaderboard, BLF outperforms all the top public methods, including Cassi, GPT-5, Grok~4.20, and Foresight-32B. Ablation studies show that the structured belief state is almost as impactful as web search access, and that shrinkage aggregation and hierarchical calibration each provide significant additional gains. In addition, we develop a robust back-testing framework with a leakage rate below 1.5\%, and use rigorous statistical methodology to compare different methods while controlling for various sources of noise.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.