PHMForge: 산업 자산 수명 주기 유지 관리를 위한 시나리오 기반 에이전트 벤치마크
PHMForge: A Scenario-Driven Agentic Benchmark for Industrial Asset Lifecycle Maintenance
대규모 언어 모델(LLM) 에이전트는 복잡한 도구 연동 작업에 점점 더 많이 활용되고 있지만, 기존 벤치마크는 잘못된 의사 결정이 심각한 안전 및 재정적 결과를 초래할 수 있는 산업 분야의 엄격한 요구 사항을 제대로 반영하지 못합니다. 이러한 중요한 격차를 해결하기 위해, 우리는 PHMForge를 소개합니다. PHMForge는 도메인 특화 MCP 서버와의 현실적인 상호 작용을 통해 LLM 에이전트를 진단 및 건강 관리(PHM) 작업에 대해 평가하도록 특별히 설계된 최초의 종합 벤치마크입니다. 당사의 벤치마크는 7개의 산업 자산 클래스(터보팬 엔진, 베어링, 전기 모터, 기어박스, 항공 엔진)에 걸쳐 75개의 전문가가 선별한 시나리오와 5가지 핵심 작업 범주(잔여 유효 수명(RUL) 예측, 결함 분류, 엔진 건강 분석, 비용-편익 분석, 안전/정책 평가)를 포함합니다. 엄격한 평가를 위해, 우리는 2개의 MCP 서버에 걸쳐 65개의 특수 도구를 구축하고, 작업에 적합한 지표를 갖춘 실행 기반 평가기를 구현했습니다. 주요 프레임워크(ReAct, Cursor Agent, Claude Code)와 최첨단 LLM(Claude Sonnet 4.0, GPT-4o, Granite-3.0-8B)을 결합하여 광범위한 평가를 수행한 결과, 최고 성능을 보이는 구성이라도 68%의 작업 완료율에 그쳤으며, 도구 연동(23%의 잘못된 순서), 다중 자산 추론(14.9%p의 성능 저하), 그리고 장비 간 일반화(보류 데이터 세트에서 42.7%)에서 체계적인 실패가 발생했습니다. 우리는 시나리오 사양, 정답 템플릿, 도구 구현 및 평가 스크립트를 포함한 전체 벤치마크를 공개하여 에이전트 기반 산업 AI 연구를 촉진하고자 합니다.
Large language model (LLM) agents are increasingly deployed for complex tool-orchestration tasks, yet existing benchmarks fail to capture the rigorous demands of industrial domains where incorrect decisions carry significant safety and financial consequences. To address this critical gap, we introduce PHMForge, the first comprehensive benchmark specifically designed to evaluate LLM agents on Prognostics and Health Management (PHM) tasks through realistic interactions with domain-specific MCP servers. Our benchmark encompasses 75 expert-curated scenarios spanning 7 industrial asset classes (turbofan engines, bearings, electric motors, gearboxes, aero-engines) across 5 core task categories: Remaining Useful Life (RUL) Prediction, Fault Classification, Engine Health Analysis, Cost-Benefit Analysis, and Safety/Policy Evaluation. To enable rigorous evaluation, we construct 65 specialized tools across two MCP servers and implement execution-based evaluators with task-commensurate metrics: MAE/RMSE for regression, F1-score for classification, and categorical matching for health assessments. Through extensive evaluation of leading frameworks (ReAct, Cursor Agent, Claude Code) paired with frontier LLMs (Claude Sonnet 4.0, GPT-4o, Granite-3.0-8B), we find that even top-performing configurations achieve only 68\% task completion, with systematic failures in tool orchestration (23\% incorrect sequencing), multi-asset reasoning (14.9 percentage point degradation), and cross-equipment generalization (42.7\% on held-out datasets). We open-source our complete benchmark, including scenario specifications, ground truth templates, tool implementations, and evaluation scripts, to catalyze research in agentic industrial AI.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.