AgriWorld: 코드 실행 LLM 에이전트를 이용한 검증 가능한 농업 추론을 위한 월드 툴 프로토콜 프레임워크
AgriWorld:A World Tools Protocol Framework for Verifiable Agricultural Reasoning with Code-Executing LLM Agents
농업용 파운데이션 모델은 방대한 시공간 데이터(예: 다중 분광 원격 탐사, 토양 그리드, 필드 단위 관리 기록)를 기반으로 훈련되는 사례가 증가하고 있으며 예측 및 모니터링에서 강력한 성능을 보입니다. 그러나 이러한 모델은 언어 기반 추론과 상호 작용 능력이 부족하여 실제 농업 현장의 워크플로에서 활용하는 데 한계가 있습니다. 한편, 대형 언어 모델(LLM)은 텍스트 해석 및 생성에는 탁월하지만 고차원의 이기종 농업 데이터를 직접 추론하지는 못합니다. 우리는 농업 과학을 위한 에이전트 프레임워크를 통해 이러한 간극을 메웁니다. 우리는 필드 구획에 대한 지리 공간 쿼리, 원격 탐사 시계열 분석, 작물 성장 시뮬레이션, 작업별 예측(예: 수확량, 스트레스, 질병 위험)을 위한 통합 도구를 노출하는 파이썬(Python) 실행 환경인 'AgriWorld'를 제공합니다. 이 환경을 기반으로 코드를 반복적으로 작성하고 실행 결과를 관찰하며 '실행-관찰-개선' 루프를 통해 분석을 정제하는 멀티 턴 LLM 에이전트인 'Agro-Reflective'를 설계했습니다. 또한 단순 조회, 예측, 이상 탐지, 반사실적 '가정(what-if)' 분석에 이르는 다양한 농업 QA를 위한 확장 가능한 데이터 생성을 포함하는 'AgroBench'를 소개합니다. 실험 결과, 텍스트 전용 및 단순 도구 사용 베이스라인보다 뛰어난 성능을 보였으며, 신뢰할 수 있는 농업 추론을 위한 실행 주도형 성찰의 유효성을 입증했습니다.
Foundation models for agriculture are increasingly trained on massive spatiotemporal data (e.g., multi-spectral remote sensing, soil grids, and field-level management logs) and achieve strong performance on forecasting and monitoring. However, these models lack language-based reasoning and interactive capabilities, limiting their usefulness in real-world agronomic workflows. Meanwhile, large language models (LLMs) excel at interpreting and generating text, but cannot directly reason over high-dimensional, heterogeneous agricultural datasets. We bridge this gap with an agentic framework for agricultural science. It provides a Python execution environment, AgriWorld, exposing unified tools for geospatial queries over field parcels, remote-sensing time-series analytics, crop growth simulation, and task-specific predictors (e.g., yield, stress, and disease risk). On top of this environment, we design a multi-turn LLM agent, Agro-Reflective, that iteratively writes code, observes execution results, and refines its analysis via an execute-observe-refine loop. We introduce AgroBench, with scalable data generation for diverse agricultural QA spanning lookups, forecasting, anomaly detection, and counterfactual "what-if" analysis. Experiments outperform text-only and direct tool-use baselines, validating execution-driven reflection for reliable agricultural reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.