비전-언어적 자기 성찰: 해석 가능한 양방향 제어를 통한 멀티모달 대규모 언어 모델의 과도한 환각 현상 완화
Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering
객체 환각은 멀티모달 대규모 언어 모델의 신뢰성을 심각하게 저해하며, 이는 모델이 특정 시각적 증거보다 언어적 선입견을 맹목적으로 신뢰하는 인지적 자기 성찰의 근본적인 실패에서 비롯되는 경우가 많습니다. 기존의 완화 방법들은 한계가 있습니다. 대비 디코딩 방식은 내부적인 의미적 불일치를 해결하지 못하고, 현재의 잠재 변수 조작 방식은 개별 인스턴스에 대한 정확성을 제공하지 못하는 정적인 벡터에 의존합니다. 본 연구에서는 훈련 없이 적용 가능한 추론 프레임워크인 비전-언어적 자기 성찰(Vision-Language Introspection, VLI)을 소개합니다. VLI는 메타인지적 자기 수정 과정을 모방하며, 먼저 속성 기반 자기 성찰을 통해 확률적 충돌 탐지를 사용하여 환각 위험을 진단하고 원인 시각적 단서를 찾습니다. 그런 다음, 해석 가능한 양방향 제어를 사용하여 추론 과정을 능동적으로 조절하고, 시각적 증거를 배경 잡음으로부터 분리하는 동시에, 적응적 보정을 통해 맹목적인 확신을 중화합니다. VLI는 최첨단 성능을 달성하여 MMHal-Bench에서 객체 환각률을 12.67% 감소시키고, POPE에서 정확도를 5.8% 향상시켰습니다.
Object hallucination critically undermines the reliability of Multimodal Large Language Models, often stemming from a fundamental failure in cognitive introspection, where models blindly trust linguistic priors over specific visual evidence. Existing mitigations remain limited: contrastive decoding approaches operate superficially without rectifying internal semantic misalignments, while current latent steering methods rely on static vectors that lack instance-specific precision. We introduce Vision-Language Introspection (VLI), a training-free inference framework that simulates a metacognitive self-correction process. VLI first performs Attributive Introspection to diagnose hallucination risks via probabilistic conflict detection and localize the causal visual anchors. It then employs Interpretable Bi-Causal Steering to actively modulate the inference process, dynamically isolating visual evidence from background noise while neutralizing blind confidence through adaptive calibration. VLI achieves state-of-the-art performance on advanced models, reducing object hallucination rates by 12.67% on MMHal-Bench and improving accuracy by 5.8% on POPE.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.