2605.14966v1 May 14, 2026 cs.CV

MHSA: 시어링된 어텐션을 활용한 환각 완화를 위한 경량화된 프레임워크

MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs

Ruobing Xie
Ruobing Xie
Citations: 392
h-index: 11
Xingwu Sun
Xingwu Sun
Citations: 411
h-index: 11
Wei Ding
Wei Ding
Citations: 20
h-index: 2
Yilin Li
Yilin Li
Citations: 44
h-index: 4
Yudong Zhang
Yudong Zhang
Tsinghua University
Citations: 96
h-index: 6
Jiansheng Chen
Jiansheng Chen
Citations: 22
h-index: 3
Yu Wang
Yu Wang
Citations: 40
h-index: 4

대규모 시각-언어 모델(LVLM)은 다양한 멀티모달 작업에서 뛰어난 성능을 보이지만, 여전히 시각 입력과 일치하지 않는 내용을 생성하는 환각 문제를 겪고 있습니다. 기존 연구인 DHCP(Detecting Hallucinations by Cross-modal Attention Pattern)는 교차 모달 어텐션 관점에서 환각 감지를 탐구했지만, 환각 완화 문제는 다루지 않았습니다. 본 논문에서는 환각 완화를 위해 LVLM의 교차 모달 어텐션 패턴을 수정하도록 학습하는 경량화된 프레임워크인 MHSA(Mitigating Hallucinations via Steered Attention)를 제안합니다. MHSA는 DHCP 판별기와 LVLM 자체로부터 얻은 감독 신호에 따라 수정된 어텐션을 생성하는 간단한 3층 MLP 생성기를 학습시킵니다. 추론 과정에서 MHSA는 다양한 데이터셋 및 LVLM에 대해, 원래의 교차 모달 어텐션을 수정된 어텐션으로 간단히 대체함으로써, LVLM의 매개변수를 수정하지 않고도 판별적 및 생성적 환각을 완화합니다. MHSA는 교차 모달 어텐션 메커니즘을 환각 감지에서 환각 완화로 확장하여, LVLM의 환각 연구에 대한 새로운 관점을 제시하며, 이들의 신뢰성을 향상시키는 데 기여합니다.

Original Abstract

Large vision-language models (LVLMs) have achieved remarkable performance across diverse multimodal tasks, yet they continue to suffer from hallucinations, generating content that is inconsistent with the visual input. Prior work DHCP (Detecting Hallucinations by Cross-modal Attention Pattern) has explored hallucination detection from the perspective of cross-modal attention, but does not address hallucination mitigation. In this paper, we propose MHSA (Mitigating Hallucinations via Steered Attention), a lightweight framework that mitigates hallucinations by learning to correct cross-modal attention patterns in LVLMs. MHSA trains a simple three-layer MLP generator to produce corrected attention, guided by supervisory signals from the DHCP discriminator and the LVLM itself. During inference, MHSA mitigates both discriminative and generative hallucinations across various datasets and LVLMs by simply replacing the original cross-modal attention with the corrected one, without modifying any LVLM parameters. By extending cross-modal attention mechanisms from hallucination detection to hallucination mitigation, MHSA offers a novel perspective on hallucination research in LVLMs and helps enhance their reliability.

0 Citations
0 Influential
5.5 Altmetric
27.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!