VLM-RobustBench: 시각-언어 모델의 강건성 평가를 위한 종합적인 벤치마크
VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models
시각-언어 모델(VLM)은 표준적인 고품질 데이터셋에서 뛰어난 성능을 보이지만, 실제 환경에서의 이미지 왜곡에 대한 성능은 아직 완전히 이해되지 않았습니다. 본 논문에서는 VLM-RobustBench를 제시합니다. 이는 노이즈, 블러, 날씨, 디지털, 그리고 기하학적 왜곡을 포함한 49가지 증강 기법을 사용하여 구성된 벤치마크입니다. 각 증강 기법은 낮은/중간/높은 수준의 심각도와 이진 변환을 통해 133가지의 왜곡된 설정으로 평가됩니다. 우리는 Qwen, InternVL, Molmo, Gemma의 네 가지 VLM 계열 모델을 두 가지 상호 보완적인 벤치마크, 즉 시각적 기반의 MMBench와 추론 중심의 MMMU-Pro에서 평가했습니다. 우리의 결과는 시각적 심각도가 어려움의 지표로 미약하다는 것을 보여줍니다. 낮은 심각도의 공간적 왜곡이 시각적으로 심각한 광학적 왜곡보다 성능 저하를 더 많이 유발하는 경우가 많습니다. 특히, 낮은 심각도의 glass_blur는 평균적으로 모델 전반에 걸쳐 MMBench 정확도를 약 8%p 감소시키며, 가장 큰 성능 저하는 리샘플링 및 기하학적 왜곡(예: upsample, elastic_transform)에서 나타나 최대 34%p까지 감소합니다. 전반적으로, 우리의 연구 결과는 현재의 VLM이 의미론적으로는 강건하지만 공간적으로는 취약하다는 것을 시사하며, 리샘플링 및 기하학적 불변성을 강조하는 새로운 강건성 평가 프로토콜 및 학습 방법을 개발할 필요성을 강조합니다.
Vision-language models (VLMs) achieve strong performance on standard, high-quality datasets, but we still do not fully understand how they perform under real-world image distortions. We present VLM-RobustBench, a benchmark spanning 49 augmentation types across noise, blur, weather, digital, and geometric perturbations, evaluated under graded severities (low/mid/high) and binary transforms, yielding 133 corrupted settings. We evaluate VLMs from four families (Qwen, InternVL, Molmo, Gemma) on two complementary benchmarks: MMBench (visually grounded) and MMMU-Pro (reasoning-oriented). Our results reveal that visual severity is a weak predictor of difficulty: low-severity spatial perturbations often degrade performance more than visually severe photometric corruptions. In particular, low-severity glass_blur reduces MMBench accuracy by about 8 pp on average across models, while the largest drops arise from resampling and geometric distortions (e.g., upsample, elastic_transform), reaching up to 34 pp. Overall, our findings suggest current VLMs are semantically strong but spatially fragile, motivating the definition of novel robustness evaluation protocols and training regimes that emphasize resampling and geometric invariances.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.