2604.25642v1 Apr 28, 2026 cs.CV

대규모 시각-언어 모델의 환각 현상 완화를 위한 프리필 단계 개입

Prefill-Time Intervention for Mitigating Hallucination in Large Vision-Language Models

Wei Li
Wei Li
Citations: 942
h-index: 10
Xinyan Jiang
Xinyan Jiang
Citations: 9
h-index: 2
Cheng Zhang
Cheng Zhang
Citations: 6
h-index: 1
Chenghao Sun
Chenghao Sun
Citations: 48
h-index: 2
Xinmei Tian
Xinmei Tian
Citations: 148
h-index: 4

대규모 시각-언어 모델(LVLM)은 시각-텍스트 이해 분야에서 괄목할 만한 발전을 이루었지만, 사실과 다르거나 일관성이 없는 응답을 생성하는 환각 현상으로 인해 신뢰성이 크게 저하되는 문제가 있습니다. 최근 연구에서 steering 벡터를 사용하여 환각 현상을 줄이는 방법이 제시되었지만, 이러한 방법은 남아있는 환각 현상의 심각성을 오히려 악화시키는 경향이 있습니다. 이는 기존 방법이 디코딩 단계에만 집중하여 오류가 누적되면서 후속적인 환각 현상을 더욱 악화시키기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 프리필 단계에 단 한 번만 개입하여 초기 키-값(KV) 캐시를 강화하는 새로운 steering 방식인 프리필 단계 개입(PTI)을 제안합니다. 특히, PTI는 모달리티에 대한 인식을 바탕으로 시각 및 텍스트 표현에 대해 서로 다른 방향으로 개입합니다. 이러한 개입은 키를 시각적으로 연결된 객체로 유도하고, 값을 사용하여 배경 노이즈를 필터링함으로써, 환각 현상을 유발하는 표현을 근본적으로 수정합니다. 광범위한 실험을 통해 PTI가 환각 현상을 완화하는 데 상당한 성능을 보이며, 다양한 디코딩 전략, LVLM, 그리고 벤치마크에 대한 일반화 성능을 갖는다는 것을 확인했습니다. 또한, PTI는 기존의 디코딩 단계 방법과 독립적으로 작동하여 쉽게 통합될 수 있으며, 성능을 더욱 향상시킬 수 있습니다. 관련 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/huaiyi66/PTI.

Original Abstract

Large Vision-Language Models (LVLMs) have achieved remarkable progress in visual-textual understanding, yet their reliability is critically undermined by hallucinations, i.e., the generation of factually incorrect or inconsistent responses. While recent studies using steering vectors demonstrated promise in reducing hallucinations, a notable challenge remains: they inadvertently amplify the severity of residual hallucinations. We attribute this to their exclusive focus on the decoding stage, where errors accumulate autoregressively and progressively worsen subsequent hallucinatory outputs. To address this, we propose Prefill-Time Intervention (PTI), a novel steering paradigm that intervenes only once during the prefill stage, enhancing the initial Key-Value (KV) cache before error accumulation occurs. Specifically, PTI is modality-aware, deriving distinct directions for visual and textual representations. This intervention is decoupled to steer keys toward visually-grounded objects and values to filter background noise, correcting hallucination-prone representations at their source. Extensive experiments demonstrate PTI's significant performance in mitigating hallucinations and its generalizability across diverse decoding strategies, LVLMs, and benchmarks. Moreover, PTI is orthogonal to existing decoding-stage methods, enabling plug-and-play integration and further boosting performance. Code is available at: https://github.com/huaiyi66/PTI.

0 Citations
0 Influential
31.931471805599 Altmetric
159.7 Score
Original PDF
3

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!