2602.18094v1 Feb 20, 2026 cs.CV

OODBench: 대형 비전-언어 모델을 위한 분포 외(Out-of-Distribution) 벤치마크

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Lin Lin
Lin Lin
Citations: 79
h-index: 5
Yang Bai
Yang Bai
Citations: 12
h-index: 3
Heng Su
Heng Su
Citations: 1
h-index: 1
Congcong Zhu
Congcong Zhu
Citations: 5
h-index: 1
Yao-Nan Wang
Yao-Nan Wang
Citations: 19
h-index: 2
Yang Zhou
Yang Zhou
Citations: 73
h-index: 3
Huazhu Fu
Huazhu Fu
Citations: 10
h-index: 3
Jingrun Chen
Jingrun Chen
Citations: 1
h-index: 1

기존의 비전-언어 모델(VLM)은 일반적으로 데이터가 독립적이고 동일하게 분포되어 있다(IID)는 가정 하에 대규모 데이터셋으로 훈련되어 상당한 발전을 이루었다. 그러나 실제 환경에서는 AI 시스템이 처리하는 모든 데이터가 이러한 가정을 충족할 것이라고 기대하는 것은 대체로 비현실적이다. 더욱이 분포 외(OOD) 객체를 적절히 처리하지 못하면 자율 주행이나 의료 보조와 같은 실제 응용 분야에서 안전상의 위험을 초래할 수 있다. 안타깝게도 현재 연구에서는 OOD 데이터에 대한 VLM의 성능을 종합적으로 평가할 수 있는 유효한 벤치마크를 아직 제공하지 못하고 있다. 이에 우리는 새로운 벤치마크를 구축하고 VLM의 OOD 데이터 처리 능력을 평가하기 위해, 최소한의 인간 검증만을 필요로 하는 주도적 자동화 방식인 OODBench를 제안한다. OODBench는 4만 개의 인스턴스 수준 OOD 인스턴스-범주 쌍을 포함하며, 우리는 기반 이미지 범주가 흔한 것임에도 불구하고 현재의 VLM이 OODBench에서 여전히 현저한 성능 저하를 보인다는 것을 입증한다. 또한, 다양한 난이도의 질문에 미치는 OOD 데이터의 영향을 보다 철저히 평가하기 위해, 프롬프트 질문의 '기본에서 심화로의 진행(Basic-to-Advanced Progression)'을 적용한 신뢰도 높은 자동 평가 지표를 제안한다. 마지막으로, 향후 OOD 데이터의 수집 및 평가 연구를 촉진하기 위해 핵심적인 발견과 통찰을 요약한다.

Original Abstract

Existing Visual-Language Models (VLMs) have achieved significant progress by being trained on massive-scale datasets, typically under the assumption that data are independent and identically distributed (IID). However, in real-world scenarios, it is often impractical to expect that all data processed by an AI system satisfy this assumption. Furthermore, failure to appropriately handle out-of-distribution (OOD) objects may introduce safety risks in real-world applications (e.g., autonomous driving or medical assistance). Unfortunately, current research has not yet provided valid benchmarks that can comprehensively assess the performance of VLMs in response to OOD data. Therefore, we propose OODBench, a predominantly automated method with minimal human verification, for constructing new benchmarks and evaluating the ability of VLMs to process OOD data. OODBench contains 40K instance-level OOD instance-category pairs, and we show that current VLMs still exhibit notable performance degradation on OODBench, even when the underlying image categories are common. In addition, we propose a reliable automated assessment metric that employs a Basic-to-Advanced Progression of prompted questions to assess the impact of OOD data on questions of varying difficulty more fully. Lastly, we summarize substantial findings and insights to facilitate future research in the acquisition and evaluation of OOD data.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!