UAV 이미지에서 작물 생육 분석까지: 식물 생육 특성 분석을 위한 다중 모드 LLM 벤치마크
From UAV Imagery to Agronomic Reasoning: A Multimodal LLM Benchmark for Plant Phenotyping
작물 유전학 개선을 위해서는 고효율적이고 포괄적인 생육 특성 분석이 필수적입니다. 과거에는 이러한 작업이 주로 수동으로 수행되었지만, 최근 다중 모드 기반 모델, 특히 시각-언어 모델(VLM)의 발전으로 인해 더욱 자동화되고 안정적인 생육 분석이 가능해졌습니다. 그러나 식물 과학 분야는 특정 분야 지식, 미세한 시각적 해석, 복잡한 생물학적 및 작물 재배 관련 추론이 요구되기 때문에, 기반 모델에게는 여전히 매우 어려운 영역입니다. 이러한 격차를 해소하기 위해, 우리는 대두(soybean) 및 목화(cotton)의 생육 특성 분석을 위한 증거 기반 다중 모드 추론 벤치마크인 PlantXpert를 개발했습니다. 저희의 벤치마크는 VLM을 작물 재배에 적용하기 위한 체계적이고 재현 가능한 프레임워크를 제공하며, 기본 모델과 해당 분야에 특화된 모델 간의 비교를 용이하게 합니다. 저희는 질병, 해충 방제, 잡초 관리 및 수확량과 같은 주요 식물 과학 분야를 포괄하는 385개의 디지털 이미지와 3,000개 이상의 벤치마크 샘플로 구성된 데이터 세트를 구축했습니다. 이 벤치마크는 시각적 전문성, 양적 추론 및 다단계 작물 재배 관련 추론과 같은 다양한 능력을 평가할 수 있습니다. 최첨단 VLM 11개를 평가했습니다. 결과는 특정 작업에 대한 미세 조정이 정확도를 크게 향상시킨다는 것을 보여주었으며, Qwen3-VL-4B 및 Qwen3-VL-30B와 같은 모델은 최대 78%의 정확도를 달성했습니다. 동시에, 모델 크기가 일정 수준을 넘어서면 성능 향상이 미미해지며, 대두와 목화 간의 일반화 성능은 여전히 불균일하며, 양적 추론 및 생물학적 기반 추론은 여전히 상당한 과제를 안고 있습니다. 이러한 결과는 PlantXpert가 증거 기반 작물 재배 관련 추론을 평가하고 식물 과학 분야의 다중 모드 모델 개발을 발전시키는 데 중요한 역할을 할 수 있음을 시사합니다.
To improve crop genetics, high-throughput, effective and comprehensive phenotyping is a critical prerequisite. While such tasks were traditionally performed manually, recent advances in multimodal foundation models, especially in vision-language models (VLMs), have enabled more automated and robust phenotypic analysis. However, plant science remains a particularly challenging domain for foundation models because it requires domain-specific knowledge, fine-grained visual interpretation, and complex biological and agronomic reasoning. To address this gap, we develop PlantXpert, an evidence-grounded multimodal reasoning benchmark for soybean and cotton phenotyping. Our benchmark provides a structured and reproducible framework for agronomic adaptation of VLMs, and enables controlled comparison between base models and their domain-adapted counterparts. We constructed a dataset comprising 385 digital images and more than 3,000 benchmark samples spanning key plant science domains including disease, pest control, weed management, and yield. The benchmark can assess diverse capabilities including visual expertise, quantitative reasoning, and multi-step agronomic reasoning. A total of 11 state-of-the-art VLMs were evaluated. The results indicate that task-specific fine-tuning leads to substantial improvement in accuracy, with models such as Qwen3-VL-4B and Qwen3-VL-30B achieving up to 78%. At the same time, gains from model scaling diminish beyond a certain capacity, generalization across soybean and cotton remains uneven, and quantitative as well as biologically grounded reasoning continue to pose substantial challenges. These findings suggest that PlantXpert can serve as a foundation for assessing evidence-grounded agronomic reasoning and for advancing multimodal model development in plant science.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.