잔차 디코딩: 히스토리 기반 잔차 지침을 통한 대규모 비전-언어 모델의 환각 현상 완화
Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance
대규모 비전-언어 모델(LVLM)은 이미지-텍스트 입력을 기반으로 효과적인 추론을 수행하며 다양한 멀티모달 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 성공에도 불구하고, LVLM은 언어적 편향의 영향을 받아 종종 환각 현상을 일으킵니다. 환각은 문법적, 구문적으로 일관성을 갖지만 실제 시각적 입력과 일치하지 않거나 직접적인 관련성이 없는 콘텐츠를 생성하는 현상을 의미합니다. 이러한 문제를 해결하기 위해, 우리는 잔차 디코딩(ResDec)이라는 새로운 방법을 제안합니다. ResDec는 추가적인 학습 없이 과거 정보를 활용하여 디코딩을 돕는 방법입니다. 이 방법은 LVLM의 내부적인 암묵적인 추론 메커니즘과 토큰 로짓 변화 메커니즘을 활용하여 편향을 수정합니다. 광범위한 실험 결과, ResDec는 언어적 편향으로 인해 발생하는 환각 현상을 효과적으로 억제하고, 시각적 연관성을 크게 향상시키며, 객체 환각 현상을 줄이는 것을 보여줍니다. 또한, ResDec는 환각 현상 완화뿐만 아니라 다양한 LVLM 벤치마크에서 뛰어난 성능을 보여주며, 그 광범위한 적용 가능성을 강조합니다.
Large Vision-Language Models (LVLMs) can reason effectively from image-text inputs and perform well in various multimodal tasks. Despite this success, they are affected by language priors and often produce hallucinations. Hallucinations denote generated content that is grammatically and syntactically coherent, yet bears no match or direct relevance to actual visual input. To address this problem, we propose Residual Decoding (ResDec). It is a novel training-free method that uses historical information to aid decoding. The method relies on the internal implicit reasoning mechanism and token logits evolution mechanism of LVLMs to correct biases. Extensive experiments demonstrate that ResDec effectively suppresses hallucinations induced by language priors, significantly improves visual grounding, and reduces object hallucinations. In addition to mitigating hallucinations, ResDec also performs exceptionally well on comprehensive LVLM benchmarks, highlighting its broad applicability.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.