2605.03762v1 May 05, 2026 cs.AI

OracleProto: 지식 제한 및 시간 마스킹을 통한 LLM 고유 예측 기능 벤치마킹을 위한 재현 가능한 프레임워크

OracleProto: A Reproducible Framework for Benchmarking LLM Native Forecasting via Knowledge Cutoff and Temporal Masking

Zhongliang Yang
Zhongliang Yang
Citations: 62
h-index: 5
Linna Zhou
Linna Zhou
Citations: 54
h-index: 5
Kaibo Huang
Kaibo Huang
Citations: 23
h-index: 3
Chengyu Ruan
Chengyu Ruan
Citations: 13
h-index: 2
Yiding Ma
Yiding Ma
Citations: 23
h-index: 2

대규모 언어 모델(LLM)은 정적인 텍스트 생성기로부터 실제 의사 결정 지원 시스템으로 진화하고 있으며, 예측 기능은 정보 수집, 증거 통합, 상황 판단 및 실행 중심 의사 결정을 연결하는 복합적인 능력입니다. 이러한 능력은 금융, 정책, 산업 및 과학 연구 분야에서 광범위하게 요구되지만, 그 평가는 여전히 어렵습니다. 실시간 벤치마크는 예측 결과가 존재하기 전에 평가하므로 예측 능력을 측정하는 가장 정확한 방법이지만, 이벤트가 해결되면 만료됩니다. 반면, 사후 벤치마크는 재현 가능하지만, 사전 훈련 중에 모델이 이미 학습했을 수 있는 사실과 실제 예측을 확실하게 구별할 수 없습니다. 모델에게 '모르는 척'하도록 지시하는 것은 진정한 지식 경계를 대체할 수 없습니다. 본 논문에서는 LLM의 고유한 예측 능력을 평가하기 위한 재현 가능한 프레임워크인 OracleProto를 제안합니다. OracleProto는 모델의 지식 제한과 일치하는 샘플 선택, 도구 수준의 시간 마스킹, 콘텐츠 수준의 정보 유출 탐지, 이산적인 답변 정규화 및 계층적 점수 부여를 결합하여 해결된 이벤트를 시간 제약적인 예측 샘플로 재구성합니다. FutureX-Past 데이터셋을 기반으로 6개의 최신 LLM에 OracleProto를 적용한 결과, OracleProto는 통제된 정보 경계 하에서 예측 품질, 샘플링 안정성 및 비용 효율성을 구별하며, 정보 유출을 도구만 사용한 시간 필터링보다 10배 낮은 수준인 1% 수준으로 줄입니다. OracleProto는 LLM 예측을 일회성 평가에서 감사 가능하고, 재사용 가능하며, 학습 가능한 데이터셋 수준의 기능으로 전환하여, 공정한 모델 간 비교를 위한 통합 인터페이스를 제공하고, 다운스트림의 지도 학습(SFT) 및 강화 학습(RL)을 위한 통제된 신호 소스를 제공합니다. 코드와 데이터는 https://github.com/MaYiding/OracleProto 및 https://huggingface.co/datasets/MaYiding/OracleProto에서 확인할 수 있습니다.

Original Abstract

Large language models are moving from static text generators toward real-world decision-support systems, where forecasting is a composite capability that links information gathering, evidence integration, situational judgment, and action-oriented decision making. This capability is in broad demand across finance, policy, industry, and scientific research, yet its evaluation remains difficult: live benchmarks evaluate forecasts before answers exist, making them the cleanest way to measure forecasting ability, but they expire once events resolve; retrospective benchmarks are reproducible, but they cannot reliably distinguish genuine forecasting from facts a model may have already learned during pretraining. Prompting models to "pretend not to know" cannot replace a genuine knowledge boundary. We propose OracleProto, a reproducible framework for evaluating LLM native forecasting capability. OracleProto reconstructs resolved events into time-bounded forecasting samples by combining model-cutoff-aligned sample admission, tool-level temporal masking, content-level leakage detection, discrete answer normalization, and hierarchical scoring. Instantiated on a FutureX-Past-derived dataset with six contemporary LLMs, OracleProto distinguishes forecasting quality, sampling stability, and cost efficiency under controlled information boundaries, while reducing residual leakage to the $1\%$ level, an order of magnitude below tool-only temporal filtering. OracleProto turns LLM forecasting from one-off evaluation into an auditable, reusable, and trainable dataset-level capability, providing a unified interface for fair cross-model comparison and a controlled signal source for downstream SFT and RL. Code and data are available at https://github.com/MaYiding/OracleProto and https://huggingface.co/datasets/MaYiding/OracleProto.

1 Citations
1 Influential
40.131802623081 Altmetric
203.7 Score
Original PDF
33

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!