MAD: 멀티모달 대형 언어 모델의 교차 모달 환각 완화를 위한 모달리티 적응형 디코딩
MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models
멀티모달 대형 언어 모델(MLLM)은 한 모달리티가 다른 모달리티의 생성에 부적절하게 영향을 미쳐 허위 정보를 출력하게 만드는 교차 모달 환각(cross-modal hallucinations) 문제를 겪고 있습니다. 이는 모달리티 상호작용 제어에 있어 더 근본적인 결함을 드러냅니다. 이를 해결하기 위해, 우리는 작업 요구 사항에 따라 모달리티별 디코딩 분기에 적응적으로 가중치를 부여하는 훈련이 필요 없는 방법인 모달리티 적응형 디코딩(MAD)을 제안합니다. MAD는 각 작업에 어떤 모달리티가 필요한지 질의하여 모달리티 관련성을 자체 평가하는 모델의 내재적 능력을 활용합니다. 추출된 모달리티 확률은 대조적 디코딩 분기에 적응적으로 가중치를 부여하는 데 사용되어, 모델이 교차 모달 간섭을 억제하면서 관련 정보에 집중할 수 있게 합니다. CMM 및 AVHBench에서의 광범위한 실험 결과, MAD는 여러 시청각 언어 모델에서 교차 모달 환각을 크게 감소시키는 것으로 나타났습니다(VideoLLaMA2-AV의 경우 7.8% 및 2.0% 개선, Qwen2.5-Omni의 경우 8.7% 및 4.7% 개선). 우리의 접근 방식은 자체 평가를 통한 명시적인 모달리티 인식이 견고한 멀티모달 추론에 필수적임을 입증하며, 기존 대조적 디코딩 방법에 대한 원칙적인 확장을 제공합니다. 코드는 https://github.com/top-yun/MAD 에서 이용 가능합니다.
Multimodal Large Language Models (MLLMs) suffer from cross-modal hallucinations, where one modality inappropriately influences generation about another, leading to fabricated output. This exposes a more fundamental deficiency in modality-interaction control. To address this, we propose Modality-Adaptive Decoding (MAD), a training-free method that adaptively weights modality-specific decoding branches based on task requirements. MAD leverages the model's inherent ability to self-assess modality relevance by querying which modalities are needed for each task. The extracted modality probabilities are then used to adaptively weight contrastive decoding branches, enabling the model to focus on relevant information while suppressing cross-modal interference. Extensive experiments on CMM and AVHBench demonstrate that MAD significantly reduces cross-modal hallucinations across multiple audio-visual language models (7.8\% and 2.0\% improvements for VideoLLaMA2-AV, 8.7\% and 4.7\% improvements for Qwen2.5-Omni). Our approach demonstrates that explicit modality awareness through self-assessment is crucial for robust multimodal reasoning, offering a principled extension to existing contrastive decoding methods. Our code is available at \href{https://github.com/top-yun/MAD}{https://github.com/top-yun/MAD}
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.