SDCD: 구조 파괴 대비 디코딩 - 대규모 시각-언어 모델의 환각 현상 완화를 위한 방법
SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models
대규모 시각-언어 모델(LVLM)은 다중 모드 이해 및 추론 분야에서 상당한 발전을 보이고 있지만, 여전히 객체 환각 문제는 중요한 과제입니다. 기존 연구는 주로 언어적 편향이나 고차원 통계적 편향을 완화하는 데 초점을 맞추지만, 시각 인코딩 과정의 내부 복잡성을 간과하는 경우가 많습니다. 본 연구에서는 약한 구조적 감독 하에서 시각 인코더가 보이는 고유한 '패치 모음(Bag-of-Patches)' 특성으로 인해 발생하는 시각적 통계적 편향이 객체 환각의 원인이 될 수 있음을 밝혀냈습니다. 이러한 편향 하에서 모델은 개별 패치 내의 로컬 텍스처 특징을 전체적인 기하 구조보다 우선적으로 고려합니다. 이러한 경향은 잘못된 시각적 확신을 유발하고 환각 현상을 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 본 연구에서는 구조 파괴 대비 디코딩(SDCD)이라는 학습이 필요 없는 알고리즘을 제안합니다. SDCD는 섞인 구조 파괴된 시점을 도입하여 출력 분포를 대비 방식으로 조정합니다. SDCD는 구조가 없는 시점에서 여전히 높은 확신을 유지하는 토큰에 페널티를 부여함으로써, 텍스처 기반 편향을 효과적으로 억제합니다. 실험 결과는 SDCD가 여러 벤치마크에서 환각 현상을 크게 완화하고 LVLM의 전반적인 다중 모드 능력을 향상시키는 것을 보여줍니다.
Large Vision-Language Models (LVLMs) demonstrate significant progress in multimodal understanding and reasoning, yet object hallucination remains a critical challenge. While existing research focuses on mitigating language priors or high-level statistical biases, they often overlook the internal complexities of the visual encoding process. We identify that visual statistical bias, arising from the inherent Bag-of-Patches behavior of Vision Encoders under weak structural supervision, acts as a contributing factor of object hallucinations. Under this bias, models prioritize local texture features within individual patches over holistic geometric structures. This tendency may induce spurious visual confidence and result in hallucinations. To address this, we introduce a training-free algorithm called Structure-Disrupted Contrastive Decoding (SDCD), which performs contrastive calibration of the output distribution by introducing a shuffled structure-disrupted view. By penalizing tokens that maintain high confidence under this structure-less view, SDCD effectively suppresses the texture-driven bias. Experimental results demonstrate that SDCD significantly mitigates hallucinations across multiple benchmarks and enhances the overall multimodal capabilities of LVLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.