SCoOP: 의미 일관성 기반 의견 통합을 통한 다중 비전-언어 모델 시스템의 불확실성 정량화
SCoOP: Semantic Consistent Opinion Pooling for Uncertainty Quantification in Multiple Vision-Language Model Systems
다중 비전-언어 모델(VLM)을 결합하면 다중 모드 추론 및 견고성을 향상시킬 수 있지만, 이질적인 모델들의 출력을 통합하는 과정에서 불확실성이 증폭되고 환각 현상의 위험이 증가합니다. 본 연구에서는 훈련 과정이 필요 없는 불확실성 정량화(UQ) 프레임워크인 SCoOP(Semantic-Consistent Opinion Pooling)을 제안합니다. SCoOP은 불확실성 가중치를 활용한 선형 의견 통합을 통해 다중 VLM 시스템의 불확실성을 정량화합니다. 기존의 단일 모델을 위한 UQ 방법과 달리, SCoOP은 여러 VLM 시스템 전체의 집단적 불확실성을 명시적으로 측정하여, 환각 현상 감지 및 높은 불확실성을 보이는 샘플에 대한 거부 결정을 효과적으로 수행할 수 있도록 합니다. ScienceQA 데이터셋에서 SCoOP은 환각 현상 감지에 대해 0.866의 AUROC 값을 달성하여, 기존 방법(0.732-0.757)보다 약 10-13% 향상된 성능을 보였습니다. 또한, 거부 결정 성능(abstention)에서는 0.907의 AURAC 값을 달성하여, 기존 방법(0.818-0.840)보다 7-9% 더 높은 성능을 보였습니다. 이러한 성능 향상에도 불구하고, SCoOP은 기존 방법과 비교하여 마이크로초 수준의 미미한 통합 오버헤드만을 발생시켜, 일반적인 VLM 추론 시간(수 초)에 비하면 매우 작은 수준입니다. 이러한 결과는 SCoOP이 불확실성을 고려한 통합을 위한 효율적이고 체계적인 메커니즘을 제공하며, 다중 모드 AI 시스템의 신뢰성을 향상시키는 데 기여함을 보여줍니다.
Combining multiple Vision-Language Models (VLMs) can enhance multimodal reasoning and robustness, but aggregating heterogeneous models' outputs amplifies uncertainty and increases the risk of hallucinations. We propose SCoOP (Semantic-Consistent Opinion Pooling), a training-free uncertainty quantification (UQ) framework multi-VLM systems through uncertainty-weighted linear opinion pooling. Unlike prior UQ methods designed for single models, SCoOP explicitly measures collective, system-level uncertainty across multiple VLMs, enabling effective hallucination detection and abstention for highly uncertain samples. On ScienceQA, SCoOP achieves an AUROC of 0.866 for hallucination detection, outperforming baselines (0.732-0.757) by approximately 10-13%. For abstention, it attains an AURAC of 0.907, exceeding baselines (0.818-0.840) by 7-9%. Despite these gains, SCoOP introduces only microsecond-level aggregation overhead relative to the baselines, which is trivial compared to typical VLM inference time (on the order of seconds). These results demonstrate that SCoOP provides an efficient and principled mechanism for uncertainty-aware aggregation, advancing the reliability of multimodal AI systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.