2602.09514v2 Feb 10, 2026 cs.CL

EcoGym: 대규모 계획 및 실행을 위한 LLM 평가: 상호 작용 경제 환경에서의 활용

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Kevin I-Kai Wang
Kevin I-Kai Wang
Citations: 0
h-index: 0
Wangchunshu Zhou
Wangchunshu Zhou
Citations: 936
h-index: 17
Xavier Hu
Xavier Hu
Citations: 0
h-index: 0
Jinxiang Xia
Jinxiang Xia
Citations: 23
h-index: 2
Shengze Xu
Shengze Xu
Citations: 73
h-index: 3
Kangqi Song
Kangqi Song
Citations: 4
h-index: 1
Yishuo Yuan
Yishuo Yuan
Citations: 27
h-index: 1
Guibin Zhang
Guibin Zhang
Citations: 64
h-index: 1
Jincheng Ren
Jincheng Ren
Citations: 10
h-index: 2
Boyu Feng
Boyu Feng
Citations: 7
h-index: 2
Li Lu
Li Lu
Citations: 116
h-index: 3
Tieyong Zeng
Tieyong Zeng
Citations: 78
h-index: 1
Jiaheng Liu
Jiaheng Liu
Citations: 702
h-index: 15
Minghao Liu
Minghao Liu
Citations: 223
h-index: 8
He Zhu
He Zhu
Citations: 137
h-index: 6
Y. Jiang
Y. Jiang
Citations: 985
h-index: 15

장기 계획은 자율적인 LLM 기반 에이전트의 핵심 능력으로 널리 인정받고 있지만, 현재의 평가 프레임워크는 대부분 에피소드 기반이거나 특정 도메인에 국한되어 있으며, 지속적인 경제적 역학 관계를 충분히 반영하지 못하는 한계가 있습니다. 본 연구에서는 일반화 가능한 벤치마크인 EcoGym을 소개합니다. EcoGym은 상호 작용 경제 환경에서의 지속적인 계획 및 실행 의사 결정에 활용됩니다. EcoGym은 Vending, Freelance, Operation의 세 가지 다양한 환경으로 구성되어 있으며, 표준화된 인터페이스와 예산 기반의 행동을 통해 효과적으로 무한한 시간 범위(평가를 위한 365일 루프의 경우 1000단계 이상)를 가진 단일 의사 결정 프로세스를 구현합니다. EcoGym의 평가는 순자산, 소득, 일일 활성 사용자 수(DAU)와 같은 비즈니스 관련 지표를 기반으로 하며, 부분적인 관찰 가능성과 확률적 요인 하에서 장기적인 전략적 일관성과 안정성을 평가합니다. 열한 가지 주요 LLM에 대한 실험 결과, 특정 모델이 모든 시나리오에서 압도적으로 우수한 성능을 보이지 않는다는 체계적인 경향이 나타났습니다. 중요한 점은 모델들이 고수준 전략 또는 효율적인 행동 실행 측면에서 상당한 비효율성을 보이는 경우가 있다는 것입니다. EcoGym은 투명한 장기 에이전트 평가를 위한 개방형 확장 가능 테스트베드로 제공되며, 현실적인 경제 환경에서 제어 가능성과 유용성 간의 균형을 연구하는 데 활용될 수 있습니다.

Original Abstract

Long-horizon planning is widely recognized as a core capability of autonomous LLM-based agents; however, current evaluation frameworks suffer from being largely episodic, domain-specific, or insufficiently grounded in persistent economic dynamics. We introduce EcoGym, a generalizable benchmark for continuous plan-and-execute decision making in interactive economies. EcoGym comprises three diverse environments: Vending, Freelance, and Operation, implemented in a unified decision-making process with standardized interfaces, and budgeted actions over an effectively unbounded horizon (1000+ steps if 365 day-loops for evaluation). The evaluation of EcoGym is based on business-relevant outcomes (e.g., net worth, income, and DAU), targeting long-term strategic coherence and robustness under partial observability and stochasticity. Experiments across eleven leading LLMs expose a systematic tension: no single model dominates across all three scenarios. Critically, we find that models exhibit significant suboptimality in either high-level strategies or efficient actions executions. EcoGym is released as an open, extensible testbed for transparent long-horizon agent evaluation and for studying controllability-utility trade-offs in realistic economic settings.

0 Citations
0 Influential
8.5 Altmetric
42.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!