비정상적인 행동을 활용하여 시각 언어 모델의 인코딩 능력을 평가
Evaluating the encoding competence of visual language models using uncommon actions
본 연구에서는 시각 언어 모델(VLM)의 의미 이해 능력을 평가하기 위한 새로운 벤치마크인 UAIT(Uncommon-sense Action Image-Text) 데이터셋을 제안합니다. 기존 데이터셋이 통계적 빈도가 높은 일반적인 시각적 장면을 중심으로 하는 반면, UAIT는 문법적으로는 타당하지만 의미적으로는 일반 상식에 어긋나는 이미지-텍스트 쌍을 사용하여 모델에 도전합니다. 이러한 작업은 모델이 단순한 패턴 인식을 넘어, 행위자와 피행위자 간의 관계 및 물리적 가능성에 대한 깊이 있는 이해를 보여주도록 요구합니다. UAIT를 구축하기 위해, 우리는 대규모 언어 모델, 몇 가지 예시 프롬프트 엔지니어링, 그리고 텍스트-이미지 생성 기술을 활용한 반자동 프로세스를 설계하여 고품질의 비정상적인 이미지-텍스트 샘플을 생성했습니다. 각 샘플은 모델의 미세한 추론 능력을 테스트하기 위한 신중하게 설계된 객관식 질문과 함께 제공됩니다. 우리는 여러 최첨단 시각 언어 모델을 평가하고, 대비 학습 기반 모델과의 비교를 수행했습니다. 실험 결과, 모든 모델이 의미 판단에서 인간보다 현저히 낮은 성능을 보였으며, 특히 문법적 정확성과 의미적 합리성을 구별하는 데 어려움을 겪었습니다. 추가적인 실험 결과, 경량 모델조차도 미세 조정(fine-tuning)을 통해 정확도를 향상시킬 수 있으며, 이는 지향적인 적응의 큰 잠재력을 보여줍니다. 본 연구는 VLM의 주요 약점을 밝혀낼 뿐만 아니라, 실제 시각적 의미 추론 능력을 갖춘 견고한 모델 개발을 위한 진단 도구와 연구 방향을 제시합니다.
We propose UAIT (Uncommon-sense Action Image-Text) dataset, a new evaluation benchmark designed to test the semantic understanding ability of visual language models (VLMs) in uncommon-sense action scenes. Unlike previous datasets that focus on common visual scenes with statistical frequency advantages, UAIT challenges models with grammatically reasonable but semantically counter-common sense image-text pairs. Such tasks require models to go beyond superficial pattern recognition and demonstrate a deep understanding of agent-patient relationships and physical feasibility. To build UAIT, we designed a semi-automated process to synthesize high-quality uncommon-sense image-text samples using large language models, few-shot prompt engineering, and text-to-image generation. Each sample is accompanied by a carefully designed multiple-choice question to test the model's competence in fine-grained reasoning. We evaluate multiple state-of-the-art visual language models and compare them with models based on contrastive learning. Experiments show that all models perform significantly worse than humans in semantic judgment, especially in distinguishing grammatical correctness from semantic rationality. Further experiments show that even the lightweight model can improve its accuracy after fine-tuning, demonstrating the great potential of directional adaptation. This study not only reveals the key weaknesses of VLMs, but also provides diagnostic tools and research directions for the development of robust models with real visual semantic reasoning capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.