EnvSimBench: LLM 기반 환경 시뮬레이션을 평가하고 개선하기 위한 벤치마크
EnvSimBench: A Benchmark for Evaluating and Improving LLM-Based Environment Simulation
확장 가능한 AI 에이전트 훈련은 에이전트의 행동에 따른 결과를 정확하게 시뮬레이션하는 상호 작용 환경에 의존합니다. 수동으로 제작된 환경은 구축 비용이 많이 들고, 확장하기 어렵고, 근본적으로 다양성이 제한적입니다. 유망한 접근 방식은 수동으로 제작된 환경을 LLM이 시뮬레이션한 환경으로 대체하는 것입니다. 그러나 이 패러다임은 검토되지 않은 핵심 가정에 의존합니다. 즉, LLM이 환경 피드백을 정확하게 시뮬레이션할 수 있다는 것입니다. 실제로 LLM 기반 시뮬레이션 환경은 환각, 논리적 불일치 및 눈에 띄지 않는 상태 변화 오류로 인해 에이전트의 보상 신호를 왜곡하고, 이 패러다임이 해결하려 했던 구축 비용을 더욱 증가시킵니다. 이러한 문제를 해결하기 위해, 우리는 다음과 같은 네 가지 기여를 포함하는 EnvSimBench를 제안합니다. 1) 우리는 측정 가능한 연구 목표로서 환경 시뮬레이션 능력(EnvSim Ability)에 대한 최초의 형식적인 정의와 운영 방식을 제시합니다. 2) 우리는 167개의 다양한 환경에 걸쳐 400개의 샘플을 포함하는 엄격한 벤치마크인 EnvSimBench를 구축했으며, 검증 가능한 레이블과 세 가지 축을 기준으로 세분화된 난이도 설계를 갖추고 있습니다. 3) 체계적인 평가는 최첨단 언어 모델 모두가 '상태 변화 절벽(state change cliff)' 현상을 나타낸다는 것을 보여줍니다. 즉, 환경 상태가 변하지 않는 작업에서는 거의 완벽한 정확도를 달성하지만, 여러 상태를 동시에 업데이트해야 하는 경우에는 치명적인 오류를 발생시킵니다. 이러한 발견은 EnvSim Ability가 중요한 능력 격차이지만, 아직 해결되지 않은 영역임을 보여줍니다. 4) 우리는 환각을 크게 줄이고, 환경 합성 효율을 6.8% 향상시키며, 비용을 90% 이상 절감하는 제약 기반 시뮬레이션 파이프라인을 설계했습니다. 전반적으로, EnvSimBench는 안정적인 LLM 기반 환경 시뮬레이션을 위한 진단 프레임워크이자 실용적인 최적화 경로 역할을 하며, 확장 가능한 에이전트 훈련을 위한 기반을 제공합니다. 코드와 데이터는 https://github.com/cookieApril/EnvSimBench 에서 확인할 수 있습니다.
Scalable AI agents training relies on interactive environments that faithfully simulate the consequences of agent actions. Manually crafted environments are expensive to build, brittle to extend, and fundamentally limited in diversity. A promising direction is to replace manually crafted environments with LLM-simulated counterparts. However, this paradigm hinges on an unexamined core assumption: LLMs can accurately simulate environmental feedback. In practice, LLM-simulated environments suffer from hallucinations, logical inconsistencies, and silent state drift failures that corrupt agent reward signals and compound the construction costs that the paradigm was designed to eliminate. To address this gap, we propose EnvSimBench with four contributions: 1) We provide the first formal definition and operationalization of Environment Simulation Ability (EnvSim Ability) as a quantifiable research objective. 2) We construct EnvSimBench, a rigorous benchmark covering 400 samples across 167 diverse environments, equipped with verifiable labels and fine-grained difficulty stratification along three axes. 3) Systematic evaluations reveal that all state-of-the-art language models suffer from a universal state change cliff: they achieve near-perfect accuracy on tasks when the environment state remains invariant, yet fail catastrophically when multiple states need simultaneous updates. This finding exposes EnvSim Ability as a critical yet largely unaddressed capability gap. 4) We design a constraint-driven simulation pipeline that substantially reduces hallucination, boosts environment synthesis yield by 6.8%, and cuts costs by over 90%. Overall, EnvSimBench serves as both a diagnostic framework and a practical optimization path for reliable LLM-based environment simulation, establishing a foundation for scalable agent training. Code and data are available at https://github.com/cookieApril/EnvSimBench
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.