협력적 전술 회피를 위한 대규모 언어 모델 미세 조정: 소형 무인 항공 시스템
Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems
저고도 공역에서 소형 무인 항공 시스템(sUAS)의 사용이 증가함에 따라, 안전이 중요한 제약 조건 하에서 신뢰할 수 있는 전술적 회피가 더욱 중요해지고 있습니다. 전술적 회피는 밀집되고 부분적으로 관찰 가능한, 그리고 다양한 다중 에이전트 환경에서 이루어지며, 협력적 분리 보장과 운영 효율성을 동시에 유지해야 합니다. 대규모 언어 모델(LLM)은 강력한 추론 능력을 보여주지만, 항공 교통 관리에 직접 적용하기에는 도메인 지식 부족과 예측 불가능한 출력 불일치 문제가 있습니다. 본 논문에서는 미세 조정 전략을 사용하여 인간 운영자의 휴리스틱과 모델 출력을 일치시키는 방식으로, 협력적 다중 에이전트 전술 회피를 위한 의사 결정자로 LLM을 활용하는 방법을 연구합니다. BlueSky 항공 교통 시뮬레이터를 기반으로 규칙에 부합하는 회피 데이터셋을 생성하는 시뮬레이션-투-랭귀지 데이터 생성 파이프라인을 제안합니다. 사전 학습된 Qwen-Math-7B 모델을 두 가지 효율적인 파라미터 조정 전략을 사용하여 미세 조정합니다. 첫 번째는 Low-Rank Adaptation(LoRA)을 사용한 지도 학습 미세 조정이며, 두 번째는 LoRA와 Group-Relative Policy Optimization(GRPO)를 결합한 선호도 기반 미세 조정입니다. 검증 데이터셋 및 폐루프 시뮬레이션 실험 결과, 지도 학습 LoRA 미세 조정은 사전 학습된 LLM에 비해 의사 결정 정확도, 일관성 및 분리 성능을 크게 향상시키며, 근접 항공 충돌 가능성을 현저히 감소시킵니다. GRPO는 추가적인 조정 이점을 제공하지만, 다양한 에이전트 정책과의 상호 작용에서 안정성이 다소 떨어지는 경향이 있습니다.
The growing deployment of small Unmanned Aerial Systems (sUASs) in low-altitude airspaces has increased the need for reliable tactical deconfliction under safety-critical constraints. Tactical deconfliction involves short-horizon decision-making in dense, partially observable, and heterogeneous multi-agent environments, where both cooperative separation assurance and operational efficiency must be maintained. While Large Language Models (LLMs) exhibit strong reasoning capabilities, their direct application to air traffic control remains limited by insufficient domain grounding and unpredictable output inconsistency. This paper investigates LLMs as decision-makers in cooperative multi-agent tactical deconfliction using fine-tuning strategies that align model outputs to human operator heuristics. We propose a simulation-to-language data generation pipeline based on the BlueSky air traffic simulator that produces rule-consistent deconfliction datasets reflecting established safety practices. A pretrained Qwen-Math-7B model is fine-tuned using two parameter-efficient strategies: supervised fine-tuning with Low-Rank Adaptation (LoRA) and preference-based fine-tuning combining LoRA with Group-Relative Policy Optimization (GRPO). Experimental results on validation datasets and closed-loop simulations demonstrate that supervised LoRA fine-tuning substantially improves decision accuracy, consistency, and separation performance compared to the pretrained LLM, with significant reductions in near mid-air collisions. GRPO provides additional coordination benefits but exhibits reduced robustness when interacting with heterogeneous agent policies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.