Revis: 거대 시각-언어 모델의 객체 환각 완화를 위한 희소 잠재 스티어링
Revis: Sparse Latent Steering to Mitigate Object Hallucination in Large Vision-Language Models
거대 시각-언어 모델(LVLM)은 뛰어난 성능에도 불구하고 빈번하게 객체 환각 문제를 겪습니다. 그 원인 중 하나는 네트워크의 깊은 층에서 시각적 특징과 사전 학습된 텍스트 표현이 종종 혼재되기 때문입니다. 이를 해결하기 위해, 우리는 억제된 시각 정보를 명시적으로 재활성화하도록 설계된 비학습형 프레임워크인 REVIS를 제안합니다. 잠재 공간 기하학에 기반을 둔 REVIS는 직교 투영을 통해 순수한 시각 정보 벡터를 추출하고, 억제가 발생하는 정확한 깊이에서만 희소 개입을 수행하는 교정된 전략을 사용합니다. 이러한 정밀한 접근 방식은 최소한의 계산 비용으로 시각 정보를 효과적으로 복원합니다. 표준 벤치마크에 대한 실험적 평가 결과, REVIS는 일반적인 추론 능력을 유지하면서도 최신 베이스라인 모델 대비 객체 환각 비율을 약 19% 감소시키는 것으로 입증되었습니다.
Despite the advanced capabilities of Large Vision-Language Models (LVLMs), they frequently suffer from object hallucination. One reason is that visual features and pretrained textual representations often become intertwined in the deeper network layers. To address this, we propose REVIS, a training-free framework designed to explicitly re-activate this suppressed visual information. Rooted in latent space geometry, REVIS extracts the pure visual information vector via orthogonal projection and employs a calibrated strategy to perform sparse intervention only at the precise depth where suppression occurs. This surgical approach effectively restores visual information with minimal computational cost. Empirical evaluations on standard benchmarks demonstrate that REVIS reduces object hallucination rates by approximately 19% compared to state-of-the-art baselines, while preserving general reasoning capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.