모든 유출은 중요하며, 일부는 더 중요하다: LLM 백테스팅에서의 해석 가능한 시간적 오염 탐지
All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting
LLM이 미래의 사건을 정확하게 예측할 수 있는지 평가하려면, 이미 완료된 사건에 대해 모델을 '백테스트(backtest)'할 수 있는 능력이 필요하다. 이를 위해서는 모델이 지정된 과거 날짜에 사용 가능한 정보만을 가지고 추론해야 한다. 그러나 LLM은 훈련 중 인코딩된 기준일 이후의 지식을 무심코 유출할 수 있으며, 이는 회고적 평가의 타당성을 저해한다. 우리는 이러한 '시간적 지식 유출'을 탐지하고 정량화하기 위한 주장(claim) 수준의 프레임워크를 도입한다. 우리의 접근법은 모델의 추론 근거를 원자적 주장으로 분해하고 이를 시간적 검증 가능성에 따라 분류한 뒤, '섀플리 값(Shapley values)'을 적용하여 각 주장이 예측에 미치는 기여도를 측정한다. 이를 통해 의사 결정을 주도하는 추론 중 유출된 정보에서 비롯된 비율을 포착하는 해석 가능한 지표인 섀플리 가중 의사결정 임계 유출률(Shapley-DCLR)을 도출한다. 이 프레임워크를 바탕으로, 우리는 시간적 오염을 선제적으로 필터링하기 위해 텍스트 생성과 주장 검증 및 재생성을 교차시키는 TimeSPEC(Time-Supervised Prediction with Extracted Claims)을 제안한다. 이를 통해 모든 뒷받침 주장을 기준일 이전의 출처로 추적할 수 있는 예측을 생성한다. 미국 연방 대법원 판결 예측, NBA 연봉 추정, 주식 수익률 순위 산정을 아우르는 350개 인스턴스에 대한 실험 결과, 표준 프롬프팅 베이스라인에서 상당한 정보 유출이 있음이 밝혀졌다. TimeSPEC은 작업 성능을 보존하면서도 Shapley-DCLR을 감소시켜, 신뢰할 수 있는 백테스팅을 위해서는 명시적이고 해석 가능한 주장 수준의 검증이 프롬프트 기반의 시간적 제약보다 우수하다는 것을 입증한다.
To evaluate whether LLMs can accurately predict future events, we need the ability to \textit{backtest} them on events that have already resolved. This requires models to reason only with information available at a specified past date. Yet LLMs may inadvertently leak post-cutoff knowledge encoded during training, undermining the validity of retrospective evaluation. We introduce a claim-level framework for detecting and quantifying this \emph{temporal knowledge leakage}. Our approach decomposes model rationales into atomic claims and categorizes them by temporal verifiability, then applies \textit{Shapley values} to measure each claim's contribution to the prediction. This yields the \textbf{Shapley}-weighted \textbf{D}ecision-\textbf{C}ritical \textbf{L}eakage \textbf{R}ate (\textbf{Shapley-DCLR}), an interpretable metric that captures what fraction of decision-driving reasoning derives from leaked information. Building on this framework, we propose \textbf{Time}-\textbf{S}upervised \textbf{P}rediction with \textbf{E}xtracted \textbf{C}laims (\textbf{TimeSPEC}), which interleaves generation with claim verification and regeneration to proactively filter temporal contamination -- producing predictions where every supporting claim can be traced to sources available before the cutoff date. Experiments on 350 instances spanning U.S. Supreme Court case prediction, NBA salary estimation, and stock return ranking reveal substantial leakage in standard prompting baselines. TimeSPEC reduces Shapley-DCLR while preserving task performance, demonstrating that explicit, interpretable claim-level verification outperforms prompt-based temporal constraints for reliable backtesting.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.