JFTA-Bench: LLM이 오류 트리(Fault Tree)를 활용하여 시스템 고장 추적 및 분석 능력을 평가하는 방법
JFTA-Bench: Evaluate LLM's Ability of Tracking and Analyzing Malfunctions Using Fault Trees
복잡한 시스템의 유지보수에서, 오류 트리는 문제 위치를 파악하고 맞춤형 해결책을 제공하는 데 사용됩니다. 본 연구에서는, 대규모 언어 모델(LLM)이 저장된 이미지 형태의 오류 트리를 직접 처리하여 고장 추적 및 분석을 지원할 수 있도록, 새로운 텍스트 기반의 오류 트리 표현 방식을 제안합니다. 이를 바탕으로, 복잡한 환경에서의 안정적인 상호작용을 강조하는 다중 턴 대화 시스템을 위한 벤치마크를 구축했습니다. 이 벤치마크는 모델이 고장 위치 파악을 지원하는 능력을 평가하며, 총 $3130$개의 항목과 항목당 평균 $40.75$개의 턴으로 구성됩니다. 또한, 사용자 행동을 반영하기 위해 불명확한 정보를 생성하는 엔드-투-엔드 모델을 학습하고, 사용자 오류 시나리오를 시뮬레이션하기 위해 장거리 복구 절차를 도입하여 모델의 통합적인 기능, 즉 작업 추적 및 오류 복구 능력을 평가합니다. 그 결과, Gemini 2.5 pro 모델이 가장 뛰어난 성능을 보였습니다.
In the maintenance of complex systems, fault trees are used to locate problems and provide targeted solutions. To enable fault trees stored as images to be directly processed by large language models, which can assist in tracking and analyzing malfunctions, we propose a novel textual representation of fault trees. Building on it, we construct a benchmark for multi-turn dialogue systems that emphasizes robust interaction in complex environments, evaluating a model's ability to assist in malfunction localization, which contains $3130$ entries and $40.75$ turns per entry on average. We train an end-to-end model to generate vague information to reflect user behavior and introduce long-range rollback and recovery procedures to simulate user error scenarios, enabling assessment of a model's integrated capabilities in task tracking and error recovery, and Gemini 2.5 pro archives the best performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.