2605.15188v1 May 14, 2026 cs.LG

FutureSim: 적응형 에이전트 평가를 위한 세계 사건 재현 시뮬레이션

FutureSim: Replaying World Events to Evaluate Adaptive Agents

Maksym Andriushchenko
Maksym Andriushchenko
Citations: 110
h-index: 5
Shashwat Goel
Shashwat Goel
Citations: 1,973
h-index: 13
Ameya Prabhu
Ameya Prabhu
Citations: 20
h-index: 2
Jonas Geiping
Jonas Geiping
Citations: 1,189
h-index: 15
Nikhil Chandak
Nikhil Chandak
Citations: 74
h-index: 4
Arvindh Arun
Arvindh Arun
Citations: 64
h-index: 4
Steffen Staab
Steffen Staab
Citations: 18
h-index: 1
Moritz Hardt
Moritz Hardt
Citations: 46
h-index: 3

AI 에이전트는 점점 더 역동적이고 개방적인 환경에서 사용되고 있으며, 이러한 환경에서는 새로운 정보가 지속적으로 유입되므로 이에 적응하는 능력이 요구됩니다. 이러한 능력을 실제 사용 사례에 맞게 효율적으로 측정하기 위해, 우리는 실제 세계의 사건을 발생 순서대로 재현하는 기반 시뮬레이션을 구축하는 것을 제안합니다. 저희는 FutureSim을 개발하여, 에이전트가 자신의 지식 제한을 넘어 세계 사건을 예측하고, 동시에 시뮬레이션 기간 동안 발생하는 실제 뉴스 기사와 질문에 대한 답변을 처리합니다. 저희는 FutureSim을 사용하여, 2026년 1월부터 3월까지 3개월 동안의 세계 사건 예측 능력을 평가하여, 최첨단 에이전트들의 성능을 측정했습니다. FutureSim의 결과는 에이전트들의 능력에 뚜렷한 차이를 보여주었으며, 가장 뛰어난 에이전트의 정확도는 25%에 불과했고, 많은 에이전트들이 예측을 전혀 하지 않는 것보다 성능이 낮았습니다. 신중한 실험을 통해, FutureSim이 장기적인 테스트 시간 적응, 검색, 기억, 불확실성에 대한 추론과 같은 새로운 연구 분야를 연구할 수 있는 현실적인 환경을 제공한다는 것을 보여주었습니다. 전반적으로, 저희는 저희의 벤치마크 설계가 실제 세계에서 장기간에 걸쳐 AI의 적응 능력 발전을 측정하는 데 기여할 수 있기를 바랍니다.

Original Abstract

AI agents are being increasingly deployed in dynamic, open-ended environments that require adapting to new information as it arrives. To efficiently measure this capability for realistic use-cases, we propose building grounded simulations that replay real-world events in the order they occurred. We build FutureSim, where agents forecast world events beyond their knowledge cutoff while interacting with a chronological replay of the world: real news articles arriving and questions resolving over the simulated period. We evaluate frontier agents in their native harness, testing their ability to predict world events over a three-month period from January to March 2026. FutureSim reveals a clear separation in their capabilities, with the best agent's accuracy being 25%, and many having worse Brier skill score than making no prediction at all. Through careful ablations, we show how FutureSim offers a realistic setting to study emerging research directions like long-horizon test-time adaptation, search, memory, and reasoning about uncertainty. Overall, we hope our benchmark design paves the way to measure AI progress on open-ended adaptation spanning long time-horizons in the real world.

1 Citations
0 Influential
7.5 Altmetric
38.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!