2601.05930v1 Jan 09, 2026 cs.CL

머신 러닝 에이전트를 실행하기 전에 예측할 수 있을까요?

Can We Predict Before Executing Machine Learning Agents?

Ningyu Zhang
Ningyu Zhang
Citations: 195
h-index: 7
Yunjun Gao
Yunjun Gao
Citations: 258
h-index: 6
Lun Du
Lun Du
Citations: 134
h-index: 4
Huajun Chen
Huajun Chen
Citations: 4,018
h-index: 32
Jingsheng Zheng
Jingsheng Zheng
Citations: 45
h-index: 2
Jintian Zhang
Jintian Zhang
Citations: 685
h-index: 10
Yujie Luo
Yujie Luo
Citations: 199
h-index: 6
Yuren Mao
Yuren Mao
Citations: 199
h-index: 6

자율적인 머신 러닝 에이전트는 과학적 발견에 혁명을 가져왔지만, 여전히 '생성-실행-피드백' 패러다임에 제약을 받습니다. 기존 접근 방식은 가설 평가가 비용이 많이 드는 물리적 실행에 크게 의존하기 때문에 심각한 실행 병목 현상을 겪습니다. 이러한 물리적 제약을 극복하기 위해, 우리는 '월드 모델'에서 영감을 받아, 비용이 많이 드는 런타임 검사를 즉각적인 예측 추론으로 대체하기 위해 실행에 대한 사전 지식을 내부화합니다. 본 연구에서는 데이터 중심 솔루션 선호도라는 과제를 공식화하고, 18,438개의 쌍 비교 데이터셋을 구축했습니다. 검증된 데이터 분석 보고서로 LLM에 정보를 제공할 때, LLM이 상당한 예측 능력을 보이며 61.5%의 정확도와 견고한 신뢰도 보정 능력을 달성하는 것을 보여줍니다. 마지막으로, 우리는 '예측-검증' 루프를 사용하는 에이전트인 FOREAGENT를 구현하여 수렴 속도를 6배 가속화하고 실행 기반의 기존 모델보다 +6% 더 우수한 성능을 달성했습니다. 저희의 코드와 데이터셋은 곧 https://github.com/zjunlp/predict-before-execute 에서 공개될 예정입니다.

Original Abstract

Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.

1 Citations
1 Influential
48.824746787308 Altmetric
247.1 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!