텍스트 지배를 넘어: 다중 모드 대규모 언어 모델의 모달 선호도 이해
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models
기존의 파이프라인 구조에서 벗어나 통합된 표현 공간으로 발전한 다중 모드 대규모 언어 모델(OLLM)은 중요한 난제인 모달 선호도라는 현상을 야기합니다. 본 연구에서는 새로 구축된 충돌 기반 벤치마크와 모달 선택률 지표를 사용하여 OLLM의 모달 선호도를 체계적으로 정량화합니다. 10개의 대표적인 OLLM을 평가한 결과, 기존의 시각-언어 모델(VLM)과는 달리 대부분의 OLLM이 뚜렷한 시각 선호도를 보이는 중요한 패러다임 전환을 확인했습니다. 이러한 모달 선호도의 근본적인 메커니즘을 이해하기 위해, 레이어별 분석을 수행한 결과, 이러한 선호도는 고정적인 것이 아니라 중간에서 후반 레이어에 걸쳐 점진적으로 나타나는 것으로 확인되었습니다. 이러한 통찰력을 바탕으로, 내부 신호를 활용하여 교차 모달 환각을 진단하고, 세 가지 다운스트림 다중 모드 벤치마크에서 특정 작업에 대한 데이터 없이 경쟁력 있는 성능을 달성했습니다. 본 연구는 OLLM 개발에 대한 메커니즘적 이해를 제공하고, 더욱 신뢰할 수 있는 OLLM을 구축하기 위한 실용적인 도구를 제시합니다. 관련 코드 및 자료는 다음 링크에서 공개적으로 이용할 수 있습니다: https://github.com/icip-cas/OmniPreference
Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.