2604.18803v1 Apr 20, 2026 cs.CV

LLM을 활용한 평가 프레임워크: 시각-언어 모델에서 어조 유발 환각 평가

LLM-as-Judge Framework for Evaluating Tone-Induced Hallucination in Vision-Language Models

Zhiyuan Jiang
Zhiyuan Jiang
Citations: 72
h-index: 4
Weihao Hong
Weihao Hong
Citations: 4
h-index: 1
Bingyu Shen
Bingyu Shen
Citations: 337
h-index: 6
Xinlei Guan
Xinlei Guan
Citations: 25
h-index: 2
Boyang Li
Boyang Li
Citations: 102
h-index: 4
Tejaswi Dhandu
Tejaswi Dhandu
Citations: 3
h-index: 1
Miles Q. Li
Miles Q. Li
Citations: 169
h-index: 6
Meng Xu
Meng Xu
Citations: 20
h-index: 3
Kuan-Wei Huang
Kuan-Wei Huang
Citations: 5
h-index: 1
U. R. Tida
U. R. Tida
Citations: 301
h-index: 9
Daehan Kwak
Daehan Kwak
Citations: 26
h-index: 2

시각-언어 모델(VLM)은 신뢰할 수 있는 시각적 정보가 중요한 역할을 하는 다양한 분야에 점점 더 많이 활용되고 있지만, 점진적으로 강압적인 프롬프트에 대한 모델의 반응은 아직 제대로 연구되지 않았습니다. 기존의 환각 평가 벤치마크는 주로 중립적인 프롬프트를 사용하고 이진 분류 방식으로 환각 여부를 판단하는데, 이러한 방식으로는 어조의 변화가 환각 발생 빈도 및 강도에 미치는 영향을 정확하게 파악하기 어렵습니다. 본 연구에서는 800개의 합성 이미지를 포함하는 Ghost-100 벤치마크를 제안합니다. 이 벤치마크는 텍스트 가독성, 시간 판독, 객체 존재 여부의 세 가지 유형의 작업에 걸쳐 8가지 범주를 포함하며, 각 이미지는 의도적으로 대상이 없거나, 읽을 수 없거나, 또는 불확실하도록 설계되었습니다. 각 이미지는 5단계 어조 강도 프레임워크에 따라 생성된 5개의 프롬프트와 함께 제공되며, 이미지와 작업 유형은 고정하고 프롬프트의 어조만 변경하여 어조가 독립 변수로서의 역할을 할 수 있도록 했습니다. 우리는 두 가지 평가 방법을 사용합니다. 첫째, 모델이 '거부'에서 '긍정'으로 바뀌는 응답의 비율을 측정하는 규칙 기반 H-Rate입니다. 둘째, GPT-4o 기반의 소형 모델이 환각 발생 시의 신뢰도와 구체성을 1~5점으로 평가하는 H-Score입니다. 또한, 800개의 이미지 중 717개가 엄격한 기준을 충족하는지 확인하는 3단계 자동 검증 워크플로우를 공개합니다. 9개의 공개 VLM 모델을 평가한 결과, 모델 유형, 판독 스타일, 객체 존재 여부 판별 방식에 따라 H-Rate과 H-Score가 크게 달라지는 것을 확인했습니다. 또한, 일부 모델은 중간 수준의 어조에서 민감도가 최고조에 달하는 비선형적인 감응도를 보이는 등, 전체적인 지표로는 파악하기 어려운 패턴이 나타났습니다.

Original Abstract

Vision-Language Models (VLMs) are increasingly deployed in settings where reliable visual grounding carries operational consequences, yet their behavior under progressively coercive prompt phrasing remains undercharacterized. Existing hallucination benchmarks predominantly rely on neutral prompts and binary detection, leaving open how both the incidence and the intensity of fabrication respond to graded linguistic pressure across structurally distinct task types. We present Ghost-100, a procedurally constructed benchmark of 800 synthetically generated images spanning eight categories across three task families -- text-illegibility, time-reading, and object-absence -- each designed under a negative-ground-truth principle that guarantees the queried target is absent, illegible, or indeterminate by construction. Every image is paired with five prompts drawn from a structured 5-Level Prompt Intensity Framework, holding the image and task identity fixed while varying only directive force, so that tone is isolated as the sole independent variable. We adopt a dual-track evaluation protocol: a rule-based H-Rate measuring the proportion of responses in which a model crosses from grounded refusal into unsupported positive commitment, and a GPT-4o-mini-judged H-Score on a 1-5 scale characterizing the confidence and specificity of fabrication once it occurs. We additionally release a three-stage automated validation workflow, which retrospectively confirms 717 of 800 images as strictly compliant. Evaluating nine open-weight VLMs, we find that H-Rate and H-Score dissociate substantially across model families, reading-style and presence-detection subsets respond to prompt pressure in qualitatively different ways, and several models exhibit non-monotonic sensitivity peaking at intermediate tone levels -- patterns that aggregate metrics obscure.

1 Citations
0 Influential
4.5 Altmetric
23.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!