2601.06165v1 Jan 07, 2026 cs.CV

사용자가 말하지 않는 것: 명확하게 정의되지 않은 질문이 시각-언어 모델의 성능을 제한한다

What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models

Dasol Choi
Dasol Choi
Citations: 76
h-index: 4
Guijin Son
Guijin Son
Citations: 179
h-index: 7
Hanwool Albert Lee
Hanwool Albert Lee
Shinhan Securities Co. AI Dept.
Citations: 205
h-index: 6
Minhyuk Kim
Minhyuk Kim
Citations: 10
h-index: 2
Hyunwoo Ko
Hyunwoo Ko
Citations: 144
h-index: 5
Teabin Lim
Teabin Lim
Citations: 3
h-index: 1
Ahn Eungyeol
Ahn Eungyeol
Citations: 3
h-index: 1
Jungwhan Kim
Jungwhan Kim
Citations: 13
h-index: 2
Seunghyeok Hong
Seunghyeok Hong
Citations: 34
h-index: 3
Young-Gi Song
Young-Gi Song
Citations: 11
h-index: 2

현재의 시각-언어 벤치마크는 주로 잘 구조화된 질문과 명확한 지시문을 포함하고 있습니다. 그러나 실제 사용자의 질문은 종종 비공식적이고 명확하게 정의되지 않습니다. 사용자는 자연스럽게 많은 것을 생략하고, 이미지에 의존하여 맥락을 전달합니다. 본 연구에서는 HAERAE-Vision을 소개합니다. 이는 한국 온라인 커뮤니티에서 수집한 653개의 실제 시각적 질문으로 구성된 벤치마크입니다 (86,000개의 후보 중 0.76% 생존). 각 질문은 명시적인 재작성 버전과 함께 제공되어 총 1,306개의 질문 변형을 생성합니다. 39개의 시각-언어 모델을 평가한 결과, 최첨단 모델(GPT-5, Gemini 2.5 Pro)조차도 원래 질문에 대해 50% 미만의 정확도를 보였습니다. 중요한 점은 질문을 명확하게 표현하는 것만으로도 8에서 22점의 성능 향상을 가져올 수 있으며, 특히 작은 모델에서 그 효과가 큽니다. 또한 웹 검색을 사용하더라도 명확하게 정의되지 않은 질문은 명시적인 질문보다 성능이 떨어지며, 이는 현재의 검색 기능이 사용자가 생략하는 정보를 보완할 수 없음을 보여줍니다. 본 연구의 결과는 시각-언어 모델의 어려움이 모델의 능력보다는 자연스러운 질문의 불완전성에서 비롯된다는 것을 보여주며, 벤치마크 평가와 실제 배포 간의 중요한 격차를 강조합니다.

Original Abstract

Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.

3 Citations
0 Influential
3.5 Altmetric
20.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!