2601.03400v1 Jan 06, 2026 cs.CV

Eye-Q: 시각 단어 퍼즐 해결 및 이미지-텍스트 추론을 위한 다국어 벤치마크

Eye-Q: A Multilingual Benchmark for Visual Word Puzzle Solving and Image-to-Phrase Reasoning

Ali Najar
Ali Najar
Citations: 0
h-index: 0
Alireza Mirrokni
Alireza Mirrokni
Citations: 7
h-index: 1
Arshia Izadyari
Arshia Izadyari
Citations: 0
h-index: 0
Sadegh Mohammadian
Sadegh Mohammadian
Citations: 4
h-index: 1
Amir Homayoon Sharifizade
Amir Homayoon Sharifizade
Citations: 0
h-index: 0
Asal Meskin
Asal Meskin
Citations: 0
h-index: 0
Mobin Bagherian
Mobin Bagherian
Citations: 4
h-index: 1
Ehsaneddin Asgari
Ehsaneddin Asgari
Citations: 192
h-index: 7

비전-언어 모델(VLMs)은 기존의 비전-언어 벤치마크에서 뛰어난 성능을 보이지만, 종종 표면적인 인식에 의존하며 깊이 있는 추론을 수행하지 못하는 경우가 많습니다. 본 연구에서는 시각 단어 퍼즐을 보다 도전적인 대안으로 제시합니다. 시각 단어 퍼즐은 암묵적인 시각적 단서를 발견하고, 가설을 생성하고 수정하며, 인식적 증거를 비직관적인 개념에 매핑해야 하므로, 단순한 직관적 이해, OCR 기반의 꼼수, 또는 단순한 검색 매칭으로는 해결하기 어렵습니다. 우리는 이러한 복잡한 시각적 이해 능력을 평가하기 위한 다국어 벤치마크인 Eye-Q를 소개합니다. Eye-Q는 모델이 간략한 설명과 함께 개념적으로 밀집된 장면을 관찰하고 특정 대상 단어 또는 구문을 추론해야 하는 1,343개의 퍼즐로 구성되어 있습니다. 퍼즐은 의도적으로 구조가 없고 암묵적인 단서를 포함하여, 주의 집중, 추상화, 연상 추론을 요구하는 방해 요소와 문맥적 관계를 포함합니다. 벤치마크는 영어, 페르시아어, 아랍어를 포함하며, 다국어 퍼즐도 포함합니다. 우리는 개방형, 인간 중심의 프로토콜을 사용하여 최첨단 VLM을 평가하고, 가벼운 지원 하에서 가설 형성 및 수정 능력을 측정합니다. 결과는 상당한 성능 격차를 보여주며, 특히 추상적이고 다국어 퍼즐에서 현재 모델의 개념적 표현 구성 및 검색 능력의 한계를 드러냅니다. 최고 정확도는 60.27%에 불과합니다.

Original Abstract

Vision-Language Models (VLMs) have achieved strong performance on standard vision-language benchmarks, yet often rely on surface-level recognition rather than deeper reasoning. We propose visual word puzzles as a challenging alternative, as they require discovering implicit visual cues, generating and revising hypotheses, and mapping perceptual evidence to non-literal concepts in ways that are difficult to solve via literal grounding, OCR-heavy shortcuts, or simple retrieval-style matching. We introduce Eye-Q, a multilingual benchmark designed to assess this form of complex visual understanding. Eye-Q contains 1,343 puzzles in which a model observes a conceptually dense scene with a brief description and must infer a specific target word or phrase. The puzzles are intentionally unstructured and cue-implicit, with distractors and contextual relationships that demand selective attention, abstraction, and associative inference. The benchmark spans English, Persian, Arabic, and cross-lingual puzzles. We evaluate state-of-the-art VLMs using an open-ended, human-aligned protocol that probes hypothesis formation and revision under lightweight assistance. Results reveal substantial performance gaps, especially on abstract and cross-lingual puzzles, highlighting limitations in current models' ability to construct and search over appropriate conceptual representations for flexible image-to-phrase inference; maximum accuracy reaches only 60.27%.

0 Citations
0 Influential
3.5 Altmetric
17.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!