미래를 예측하는 에이전트를 위한 진화적 접근: 세상은 미래를 드러낸다
The World Leaks the Future: Harness Evolution for Future Prediction Agents
많은 중요한 결정은 관련된 결과가 알려지기 전에 내려야 합니다. 이러한 문제는 종종 미래 예측 문제로 정의되며, 여기서 LLM 에이전트는 예측 시점에 사용 가능한 공개 정보를 바탕으로 해결되지 않은 질문에 대한 예측을 수행해야 합니다. 이 설정은 어렵습니다. 왜냐하면 공개적인 증거는 시간이 지남에 따라 변화하고, 유용한 지도 정보는 질문이 해결된 후에만 제공되기 때문입니다. 따라서 대부분의 기존 접근 방식은 여전히 최종 결과에 의해 주로 개선됩니다. 그러나 최종 결과는 초기 단계에서의 요인 추적, 증거 수집 및 해석, 불확실성 처리 등을 안내하기에는 너무 일반적입니다. 동일한 해결되지 않은 질문을 시간이 지남에 따라 반복적으로 검토할 때, 초기 예측과 후기 예측 간의 시간적 차이는 초기 예측 과정에서 누락된 부분을 드러낼 수 있습니다. 우리는 이를 '내부 피드백'이라고 부릅니다. 본 논문에서는 기본 모델을 고정하고, 요인 추적, 증거 수집 및 해석, 불확실성 처리를 위한 지속적인 미래 예측 시스템을 업데이트하는 'Milkyway'라는 자체 진화 에이전트 시스템을 소개합니다. Milkyway는 동일한 해결되지 않은 질문에 대해 반복적으로 예측을 수행하면서 내부 피드백을 추출하고, 추출된 정보를 재사용 가능한 지침으로 변환하여 시스템 내부에 저장합니다. 이를 통해 해당 질문에 대한 후속 예측은 결과가 알려지기 전에 개선될 수 있습니다. 질문이 해결된 후에는 최종 결과가 업데이트된 시스템에 대한 사후 검토를 제공하며, 이 시스템은 이후 질문으로 전달됩니다. FutureX 및 FutureWorld 데이터셋에서 Milkyway는 비교된 모든 방법 중 가장 높은 전체 점수를 달성했으며, FutureX의 점수를 44.07에서 60.90으로, FutureWorld의 점수를 62.22에서 77.96으로 향상시켰습니다.
Many consequential decisions must be made before the relevant outcome is known. Such problems are commonly framed as future prediction, where an LLM agent must form a prediction for an unresolved question using only the public information available at the prediction time. The setting is difficult because public evidence evolves while useful supervision arrives only after the question is resolved, so most existing approaches still improve mainly from final outcomes. Yet final outcomes are too coarse to guide earlier factor tracking, evidence gathering and interpretation, or uncertainty handling. When the same unresolved question is revisited over time, temporal contrasts between earlier and later predictions can expose omissions in the earlier prediction process; we call this signal internal feedback. We introduce Milkyway, a self-evolving agent system that keeps the base model fixed and instead updates a persistent future prediction harness for factor tracking, evidence gathering and interpretation, and uncertainty handling. Across repeated predictions on the same unresolved question, Milkyway extracts internal feedback and writes reusable guidance back into the harness, so later predictions on that question can improve before the outcome is known. After the question is resolved, the final outcome provides a retrospective check before the updated harness is carried forward to subsequent questions. On FutureX and FutureWorld, Milkyway achieves the best overall score among the compared methods, improving FutureX from 44.07 to 60.90 and FutureWorld from 62.22 to 77.96.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.