동일한 정답, 상이한 표현: 비전-언어 모델(VLM)의 잠재된 불안정성
Same Answer, Different Representations: Hidden instability in VLMs
비전-언어 모델(VLM)의 강건성은 일반적으로 출력 수준의 불변성을 통해 평가되며, 이는 안정적인 예측이 안정적인 멀티모달 처리를 반영한다는 암묵적인 가정을 전제로 합니다. 본 연구에서는 이러한 가정이 불충분하다고 주장합니다. 우리는 표준 레이블 기반 지표와 함께 내부 임베딩 드리프트, 스펙트럼 민감도, 구조적 매끄러움(비전 토큰의 공간적 일관성)을 측정하는 표현 인식 및 주파수 인식 평가 프레임워크를 도입합니다. 이 프레임워크를 SEEDBench, MMMU, POPE 데이터셋 전반의 최신 VLM에 적용한 결과, 세 가지 뚜렷한 실패 양상이 드러났습니다. 첫째, 모델들은 상당한 내부 표현 드리프트를 겪으면서도 예측된 정답을 유지하는 경우가 빈번합니다. 텍스트 오버레이와 같은 섭동의 경우, 이러한 드리프트는 이미지 간 변동성의 크기에 육박하며, 이는 출력이 변하지 않았음에도 표현이 일반적으로 관련 없는 입력들이 점유하는 영역으로 이동함을 나타냅니다. 둘째, 강건성은 모델의 규모에 따라 개선되지 않습니다. 더 큰 모델들은 더 높은 정확도를 달성하지만 동일하거나 더 큰 민감도를 보이며, 이는 더 날카롭지만 더 취약한 결정 경계와 일치하는 현상입니다. 셋째, 섭동이 작업에 따라 상이한 영향을 미친다는 점을 발견했습니다. 섭동이 모델의 거시적 및 미시적 시각 단서 결합 방식을 방해할 때는 추론 능력을 저해하지만, 할루시네이션 벤치마크에서는 모델이 더 보수적인 답변을 생성하게 유도함으로써 오히려 위양성을 줄일 수 있습니다.
The robustness of Vision Language Models (VLMs) is commonly assessed through output-level invariance, implicitly assuming that stable predictions reflect stable multimodal processing. In this work, we argue that this assumption is insufficient. We introduce a representation-aware and frequency-aware evaluation framework that measures internal embedding drift, spectral sensitivity, and structural smoothness (spatial consistency of vision tokens), alongside standard label-based metrics. Applying this framework to modern VLMs across the SEEDBench, MMMU, and POPE datasets reveals three distinct failure modes. First, models frequently preserve predicted answers while undergoing substantial internal representation drift; for perturbations such as text overlays, this drift approaches the magnitude of inter-image variability, indicating that representations move to regions typically occupied by unrelated inputs despite unchanged outputs. Second, robustness does not improve with scale; larger models achieve higher accuracy but exhibit equal or greater sensitivity, consistent with sharper yet more fragile decision boundaries. Third, we find that perturbations affect tasks differently: they harm reasoning when they disrupt how models combine coarse and fine visual cues, but on the hallucination benchmarks, they can reduce false positives by making models generate more conservative answers.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.