PilotBench: 안전 제약 조건이 적용된 일반 항공 에이전트의 성능 평가 기준
PilotBench: A Benchmark for General Aviation Agents with Safety Constraints
대규모 언어 모델(LLM)이 실제 환경에서 작동하는 인공지능 에이전트로 발전함에 따라, 텍스트 데이터로 학습된 모델이 복잡한 물리 법칙을 정확하게 이해하고 안전 제약을 준수하면서 추론할 수 있는지에 대한 근본적인 질문이 제기됩니다. 본 연구에서는 PilotBench라는 성능 평가 기준을 통해 LLM이 안전이 중요한 비행 경로 및 자세 예측에서 얼마나 성능을 보이는지 평가합니다. PilotBench는 34개의 텔레메트리 채널로 동기화된 9가지 운영적으로 구별되는 비행 단계에 걸쳐 수집된 708개의 실제 일반 항공 비행 경로 데이터를 기반으로 구축되었습니다. PilotBench는 LLM과 전통적인 예측 모델을 비교 분석하여 의미론적 이해와 물리 법칙 기반 예측의 연관성을 체계적으로 분석합니다. 본 연구에서는 LLM의 성능을 평가하기 위한 복합 지표인 Pilot-Score를 제시하며, 이는 60%의 회귀 정확도와 40%의 지시사항 준수 및 안전 규정 준수를 균형 있게 반영합니다. 41개의 모델에 대한 비교 평가 결과, Precision-Controllability Dichotomy(정확도-제어 가능성 이분법)가 나타났습니다. 전통적인 예측 모델은 7.01의 우수한 평균 절대 오차(MAE)를 보이지만 의미론적 추론 능력이 부족하며, LLM은 86~89%의 높은 지시사항 준수율을 보이면서도 11~14의 MAE를 나타냅니다. 단계별 분석 결과, LLM의 성능이 Climb(상승) 및 Approach(접근)와 같은 높은 작업 부하 단계에서 급격하게 저하되는 Dynamic Complexity Gap(동적 복잡성 격차)이 드러났습니다. 이는 LLM이 내재적인 물리 모델이 취약함을 시사합니다. 이러한 경험적 발견은 LLM의 상징적 추론 능력과 전문 예측 모델의 수치적 정확도를 결합한 하이브리드 아키텍처의 개발을 촉진합니다. PilotBench는 안전 제약이 있는 분야에서 인공지능 기술 발전을 위한 엄격한 기반을 제공합니다.
As Large Language Models (LLMs) advance toward embodied AI agents operating in physical environments, a fundamental question emerges: can models trained on text corpora reliably reason about complex physics while adhering to safety constraints? We address this through PilotBench, a benchmark evaluating LLMs on safety-critical flight trajectory and attitude prediction. Built from 708 real-world general aviation trajectories spanning nine operationally distinct flight phases with synchronized 34-channel telemetry, PilotBench systematically probes the intersection of semantic understanding and physics-governed prediction through comparative analysis of LLMs and traditional forecasters. We introduce Pilot-Score, a composite metric balancing 60% regression accuracy with 40% instruction adherence and safety compliance. Comparative evaluation across 41 models uncovers a Precision-Controllability Dichotomy: traditional forecasters achieve superior MAE of 7.01 but lack semantic reasoning capabilities, while LLMs gain controllability with 86--89% instruction-following at the cost of 11--14 MAE precision. Phase-stratified analysis further exposes a Dynamic Complexity Gap-LLM performance degrades sharply in high-workload phases such as Climb and Approach, suggesting brittle implicit physics models. These empirical discoveries motivate hybrid architectures combining LLMs' symbolic reasoning with specialized forecasters' numerical precision. PilotBench provides a rigorous foundation for advancing embodied AI in safety-constrained domains.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.