인터프리터블 객체 감지 및 신뢰할 수 있는 다중 모드 AI를 위한 Kolmogorov-Arnold 네트워크와 비전-언어 기반 모델을 활용한 YOLOv10
YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception
본 연구에서는 새로운 Kolmogorov-Arnold 네트워크 프레임워크의 인터프리터블 객체 감지 기능을 분석합니다. 제안하는 방법은 자율 주행 시스템의 시각적 인식 분야에서 중요한 한계를 극복하는 데 기여하며, 그 범위를 넘어 광범위하게 적용될 수 있습니다. 기존 시스템은 시각적으로 열악하거나 모호한 환경에서 신뢰도 점수의 정확성에 대한 투명성이 부족하다는 문제가 있습니다. 이러한 한계를 해결하기 위해, Kolmogorov-Arnold 네트워크를 사용하여 You Only Look Once (YOLOv10) 감지 결과의 신뢰도를 모델링하는 인터프리터블 후처리 기법을 개발했습니다. 이 기법은 7가지 기하학적 및 의미적 특징을 사용하여 YOLOv10 감지 결과를 보정합니다. Kolmogorov-Arnold 네트워크의 가산 스플라인 기반 구조는 각 특징의 영향을 직접 시각화할 수 있도록 합니다. 이를 통해 모델의 신뢰도가 얼마나 잘 뒷받침되는지, 그리고 언제 신뢰성이 떨어지는지를 명확하게 보여주는 투명한 함수적 매핑을 제공합니다. Common Objects in Context (COCO) 데이터셋과 Bath 대학교 캠퍼스 이미지에 대한 실험 결과, 제안하는 프레임워크는 흐림, 가려짐 또는 낮은 텍스처 환경에서 낮은 신뢰도를 보이는 예측을 정확하게 식별합니다. 이러한 결과는 필터링, 검토 또는 후속 위험 완화를 위한 실질적인 정보를 제공합니다. 또한, bootstrapped language-image (BLIP) 기반 모델을 사용하여 각 장면을 설명하는 캡션을 생성합니다. 이 도구는 해석 가능성 계층에 영향을 주지 않고 가벼운 다중 모드 인터페이스를 제공합니다. 결과적으로, 본 시스템은 신뢰할 수 있는 신뢰도 추정치를 제공하는 인터프리터블 객체 감지 기능을 제공하며, 자율 시스템 및 다중 모드 인공 지능 응용 분야를 위한 투명하고 실용적인 인식 구성 요소로서 강력한 도구를 제공합니다.
The interpretable object detection capabilities of a novel Kolmogorov-Arnold network framework are examined here. The approach refers to a key limitation in computer vision for autonomous vehicles perception, and beyond. These systems offer limited transparency regarding the reliability of their confidence scores in visually degraded or ambiguous scenes. To address this limitation, a Kolmogorov-Arnold network is employed as an interpretable post-hoc surrogate to model the trustworthiness of the You Only Look Once (Yolov10) detections using seven geometric and semantic features. The additive spline-based structure of the Kolmogorov-Arnold network enables direct visualisation of each feature's influence. This produces smooth and transparent functional mappings that reveal when the model's confidence is well supported and when it is unreliable. Experiments on both Common Objects in Context (COCO), and images from the University of Bath campus demonstrate that the framework accurately identifies low-trust predictions under blur, occlusion, or low texture. This provides actionable insights for filtering, review, or downstream risk mitigation. Furthermore, a bootstrapped language-image (BLIP) foundation model generates descriptive captions of each scene. This tool enables a lightweight multimodal interface without affecting the interpretability layer. The resulting system delivers interpretable object detection with trustworthy confidence estimates. It offers a powerful tool for transparent and practical perception component for autonomous and multimodal artificial intelligence applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.