어조가 중요하다: 언어적 어조가 VLM의 환각에 미치는 영향
Tone Matters: The Impact of Linguistic Tone on Hallucination in VLMs
비전-언어 모델(VLMs)은 신뢰성 있는 시각적 정보 기반이 필요한 안전 관련 응용 분야에서 점점 더 많이 사용되고 있습니다. 그러나 이러한 모델은 종종 사용자 요청을 충족시키기 위해 이미지에 존재하지 않는 세부 사항을 환각하는 경향이 있습니다. 최근에는 VLM의 체계적인 환각을 평가하기 위한 데이터셋과 벤치마크가 도입되었지만, 많은 환각 현상은 여전히 충분히 설명되지 않았습니다. 특히, 기존 연구는 주로 객체의 존재 여부에 초점을 맞추고 있으며, 프롬프트의 표현 방식과 구조적 제약이 어떻게 체계적으로 환각을 유발하는지에 대한 명확한 설명은 부족합니다. 본 논문에서는 다양한 형태의 프롬프트 강도가 환각 행동에 미치는 영향을 조사합니다. 우리는 핵심 시각적 세부 사항이 의도적으로 제거된 합성 장면 데이터셋인 Ghost-100을 소개합니다. 이를 통해 결여 기반 환각을 체계적으로 분석할 수 있습니다. 구조화된 5단계 프롬프트 강도 프레임워크를 사용하여 프롬프트를 중립적인 질문에서부터 공격적인 요구 사항 및 엄격한 형식 제약 조건까지 다양하게 변경합니다. MiniCPM-V 2.6-8B, Qwen2-VL-7B, Qwen3-VL-8B의 세 가지 대표적인 오픈 웨이트 VLM을 평가합니다. 세 모델 모두에서 환각 발생률은 프롬프트 강도가 증가한다고 해서 단조적으로 증가하지 않습니다. 모든 모델은 특정 임계값에서 더 높은 강도 수준에서 환각 발생률이 감소하는 경향을 보이지만, 모든 모델이 최대 강압 상태에서도 지속적인 감소를 보이는 것은 아닙니다. 이러한 결과는 현재의 안전 정렬이 구조적 강압보다 의미적 적대성을 감지하는 데 더 효과적이며, 모델별로 규정 준수 압력에 대한 처리 능력에 제한이 있음을 시사합니다. 본 연구의 데이터셋은 다음 위치에서 확인할 수 있습니다: https://github.com/bli1/tone-matters
Vision-Language Models (VLMs) are increasingly used in safety-critical applications that require reliable visual grounding. However, these models often hallucinate details that are not present in the image to satisfy user prompts. While recent datasets and benchmarks have been introduced to evaluate systematic hallucinations in VLMs, many hallucination behaviors remain insufficiently characterized. In particular, prior work primarily focuses on object presence or absence, leaving it unclear how prompt phrasing and structural constraints can systematically induce hallucinations. In this paper, we investigate how different forms of prompt pressure influence hallucination behavior. We introduce Ghost-100, a procedurally generated dataset of synthetic scenes in which key visual details are deliberately removed, enabling controlled analysis of absence-based hallucinations. Using a structured 5-Level Prompt Intensity Framework, we vary prompts from neutral queries to toxic demands and rigid formatting constraints. We evaluate three representative open-weight VLMs: MiniCPM-V 2.6-8B, Qwen2-VL-7B, and Qwen3-VL-8B. Across all three models, hallucination rates do not increase monotonically with prompt intensity. All models exhibit reductions at higher intensity levels at different thresholds, though not all show sustained reduction under maximum coercion. These results suggest that current safety alignment is more effective at detecting semantic hostility than structural coercion, revealing model-specific limitations in handling compliance pressure. Our dataset is available at: https://github.com/bli1/tone-matters
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.