네트워크 단편화를 극복하는 방법: UAV 기반 차량 통신 네트워크(VANET)를 위한 의미 기반 강화 학습 프레임워크
Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs
차량 통신 네트워크(VANET)는 자율 주행의 핵심 기술이지만, 도시 환경에서는 물리적인 장애물로 인해 심각한 네트워크 단편화 문제를 겪습니다. 무인 항공기(UAV)는 높은 이동성을 바탕으로 이러한 연결 단절을 해결하는 중요한 솔루션으로 부상했습니다. 그러나 기존의 딥 강화 학습(DRL) 기반 UAV 배치 전략은 도로 토폴로지에 대한 의미적 이해가 부족하여, 종종 시행착오적인 탐색으로 이어져 학습 효율성이 떨어지는 문제가 있습니다. 반면, 대규모 언어 모델(LLM)은 토폴로지적 중요성을 파악하는 강력한 추론 능력을 가지고 있지만, 이를 제어 작업에 적용하는 것은 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해, 본 연구에서는 의미 기반 강화 학습(SA-DRL) 프레임워크를 제안합니다. 먼저, 도로 토폴로지 그래프(RTG)와 이중 연결 그래프(DCG)를 기반으로 네트워크 단편화 정도를 측정하는 방법을 제시합니다. 다음으로, 범용 LLM을 특정 도메인의 토폴로지 전문가로 변환하는 4단계 파이프라인을 설계합니다. 마지막으로, LLM의 의미적 추론을 정책에 사전 정보로 주입하는 로짓 퓨전(Logit Fusion) 메커니즘을 활용하여, 에이전트가 중요한 교차로를 향하도록 안내하는 의미 기반 강화 학습 알고리즘인 SA-PPO를 제안합니다. 고정밀 시뮬레이션 결과, SA-PPO는 기존 방법보다 뛰어난 성능을 보이며, 학습 에피소드의 26.6% 만으로 기준 성능에 도달하는 놀라운 효율성을 보여주었습니다. 궁극적으로, SA-PPO는 경쟁 방법보다 두 가지 주요 연결성 지표를 각각 13.2% 및 23.5% 향상시키고, 에너지 소비량을 기준의 28.2%까지 줄이는 효과를 보였습니다.
Vehicular Ad-hoc Networks (VANETs) are the digital cornerstone of autonomous driving, yet they suffer from severe network fragmentation in urban environments due to physical obstructions. Unmanned Aerial Vehicles (UAVs), with their high mobility, have emerged as a vital solution to bridge these connectivity gaps. However, traditional Deep Reinforcement Learning (DRL)-based UAV deployment strategies lack semantic understanding of road topology, often resulting in blind exploration and sample inefficiency. By contrast, Large Language Models (LLMs) possess powerful reasoning capabilities capable of identifying topological importance, though applying them to control tasks remains challenging. To address this, we propose the Semantic-Augmented DRL (SA-DRL) framework. Firstly, we propose a fragmentation quantification method based on Road Topology Graphs (RTG) and Dual Connected Graphs (DCG). Subsequently, we design a four-stage pipeline to transform a general-purpose LLM into a domain-specific topology expert. Finally, we propose the Semantic-Augmented PPO (SA-PPO) algorithm, which employs a Logit Fusion mechanism to inject the LLM's semantic reasoning directly into the policy as a prior, effectively guiding the agent toward critical intersections. Extensive high-fidelity simulations demonstrate that SA-PPO achieves state-of-the-art performance with remarkable efficiency, reaching baseline performance levels using only 26.6% of the training episodes. Ultimately, SA-PPO improves two key connectivity metrics by 13.2% and 23.5% over competing methods, while reducing energy consumption to just 28.2% of the baseline.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.