UAV 검사 시 전력선 분할의 의미론적 판단을 위한 LLM 기반 심판 시스템
LLM-as-Judge for Semantic Judging of Powerline Segmentation in UAV Inspection
드론에 경량 분할 모델을 탑재하여 자율적인 전력선 검사를 수행하는 것은 중요한 과제입니다. 이는 훈련 데이터와 다른 실제 환경 조건에서 안정적인 성능을 유지해야 하기 때문입니다. U-Net과 같은 소형 아키텍처는 실시간 온보드 추론을 가능하게 하지만, 그 분할 결과는 악천후 환경에서 예측 불가능하게 저하될 수 있으며, 이는 안전 문제를 야기할 수 있습니다. 본 연구에서는 대규모 언어 모델(LLM)을 의미론적 심판으로 활용하여 드론에 탑재된 모델이 생성하는 전력선 분할 결과의 신뢰성을 평가하는 가능성을 연구합니다. 새로운 검사 시스템을 도입하는 대신, 오프보드 LLM이 분할 결과 오버레이를 평가하는 감시 시스템 시나리오를 정의하고, 이러한 심판이 일관되고 시각적으로 일관된 방식으로 작동하는지 여부를 검토합니다. 이를 위해, 심판의 반복성과 민감성을 분석하는 두 가지 평가 프로토콜을 설계했습니다. 첫째, 동일한 입력과 고정된 프롬프트를 사용하여 LLM을 반복적으로 쿼리하여 품질 점수와 신뢰도 추정치의 안정성을 측정하여 반복성을 평가합니다. 둘째, 통제된 시각적 왜곡(안개, 비, 눈, 그림자 및 태양광)을 도입하고 분할 품질이 점진적으로 저하됨에 따라 심판의 출력 결과가 어떻게 반응하는지 분석하여 시각적 민감성을 평가합니다. 연구 결과, LLM은 동일한 조건에서 매우 일관된 범주형 판단을 내리고, 시각적 신뢰도가 저하됨에 따라 적절하게 신뢰도 점수가 감소하는 것을 확인했습니다. 또한, 심판은 어려운 조건에서도 누락되거나 잘못 식별된 전력선과 같은 시각적 단서에 반응합니다. 이러한 결과는 LLM이 신중하게 제약 조건이 적용될 경우, 안전이 중요한 항공 검사 작업에서 분할 품질을 모니터링하는 신뢰할 수 있는 의미론적 심판으로 사용될 수 있음을 시사합니다.
The deployment of lightweight segmentation models on drones for autonomous power line inspection presents a critical challenge: maintaining reliable performance under real-world conditions that differ from training data. Although compact architectures such as U-Net enable real-time onboard inference, their segmentation outputs can degrade unpredictably in adverse environments, raising safety concerns. In this work, we study the feasibility of using a large language model (LLM) as a semantic judge to assess the reliability of power line segmentation results produced by drone-mounted models. Rather than introducing a new inspection system, we formalize a watchdog scenario in which an offboard LLM evaluates segmentation overlays and examine whether such a judge can be trusted to behave consistently and perceptually coherently. To this end, we design two evaluation protocols that analyze the judge's repeatability and sensitivity. First, we assess repeatability by repeatedly querying the LLM with identical inputs and fixed prompts, measuring the stability of its quality scores and confidence estimates. Second, we evaluate perceptual sensitivity by introducing controlled visual corruptions (fog, rain, snow, shadow, and sunflare) and analyzing how the judge's outputs respond to progressive degradation in segmentation quality. Our results show that the LLM produces highly consistent categorical judgments under identical conditions while exhibiting appropriate declines in confidence as visual reliability deteriorates. Moreover, the judge remains responsive to perceptual cues such as missing or misidentified power lines, even under challenging conditions. These findings suggest that, when carefully constrained, an LLM can serve as a reliable semantic judge for monitoring segmentation quality in safety-critical aerial inspection tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.