2602.01047v2 Feb 01, 2026 cs.CV

잔차 디코딩: 히스토리 기반 잔차 지침을 통한 대규모 비전-언어 모델의 환각 현상 완화

Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance

Xinrong Chen
Xinrong Chen
Citations: 26
h-index: 2
X. Chu
X. Chu
Citations: 31
h-index: 3
Yingmin Qiu
Yingmin Qiu
Citations: 5
h-index: 1
Hengyuan Zhang
Hengyuan Zhang
Citations: 70
h-index: 5
Jing Xiong
Jing Xiong
Citations: 2,921
h-index: 9
Shiyu Tang
Shiyu Tang
Citations: 77
h-index: 4
Shuai Liu
Shuai Liu
Citations: 460
h-index: 5
Shaokang Yang
Shaokang Yang
Citations: 128
h-index: 4
Chen Yang
Chen Yang
Citations: 190
h-index: 5
Hayden Kwok-Hay So
Hayden Kwok-Hay So
University of Hong Kong
Citations: 3,002
h-index: 32
Ngai Wong
Ngai Wong
Citations: 29
h-index: 3

대규모 비전-언어 모델(LVLM)은 이미지-텍스트 입력을 기반으로 효과적인 추론을 수행하며 다양한 멀티모달 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 성공에도 불구하고, LVLM은 언어적 편향의 영향을 받아 종종 환각 현상을 일으킵니다. 환각은 문법적, 구문적으로 일관성을 갖지만 실제 시각적 입력과 일치하지 않거나 직접적인 관련성이 없는 콘텐츠를 생성하는 현상을 의미합니다. 이러한 문제를 해결하기 위해, 우리는 잔차 디코딩(ResDec)이라는 새로운 방법을 제안합니다. ResDec는 추가적인 학습 없이 과거 정보를 활용하여 디코딩을 돕는 방법입니다. 이 방법은 LVLM의 내부적인 암묵적인 추론 메커니즘과 토큰 로짓 변화 메커니즘을 활용하여 편향을 수정합니다. 광범위한 실험 결과, ResDec는 언어적 편향으로 인해 발생하는 환각 현상을 효과적으로 억제하고, 시각적 연관성을 크게 향상시키며, 객체 환각 현상을 줄이는 것을 보여줍니다. 또한, ResDec는 환각 현상 완화뿐만 아니라 다양한 LVLM 벤치마크에서 뛰어난 성능을 보여주며, 그 광범위한 적용 가능성을 강조합니다.

Original Abstract

Large Vision-Language Models (LVLMs) can reason effectively from image-text inputs and perform well in various multimodal tasks. Despite this success, they are affected by language priors and often produce hallucinations. Hallucinations denote generated content that is grammatically and syntactically coherent, yet bears no match or direct relevance to actual visual input. To address this problem, we propose Residual Decoding (ResDec). It is a novel training-free method that uses historical information to aid decoding. The method relies on the internal implicit reasoning mechanism and token logits evolution mechanism of LVLMs to correct biases. Extensive experiments demonstrate that ResDec effectively suppresses hallucinations induced by language priors, significantly improves visual grounding, and reduces object hallucinations. In addition to mitigating hallucinations, ResDec also performs exceptionally well on comprehensive LVLM benchmarks, highlighting its broad applicability.

0 Citations
0 Influential
16 Altmetric
80.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!