2604.02605v1 Apr 03, 2026 cs.AI

오디오-비디오 대규모 언어 모델은 정말 보고 듣는가?

Do Audio-Visual Large Language Models Really See and Hear?

Sreyan Ghosh
Sreyan Ghosh
Citations: 49
h-index: 4
Ramaneswaran Selvakumar
Ramaneswaran Selvakumar
Citations: 27
h-index: 3
Kaousheik Jayakumar
Kaousheik Jayakumar
Citations: 2
h-index: 1
S. Sakshi
S. Sakshi
Citations: 0
h-index: 0
Ruohan Gao
Ruohan Gao
Citations: 55
h-index: 3
Dinesh Manocha
Dinesh Manocha
Citations: 28
h-index: 3

오디오-비디오 대규모 언어 모델(AVLLM)은 다중 모드 인식을 위한 통합 인터페이스로 부상하고 있습니다. 본 연구는 AVLLM의 최초의 메커니즘 해석 연구로서, AVLLM의 다양한 레이어를 통해 오디오 및 시각 특징이 어떻게 변화하고 융합되어 최종 텍스트 출력을 생성하는지 분석합니다. 연구 결과, AVLLM은 중간 레이어에서 풍부한 오디오 의미를 인코딩하지만, 오디오 정보가 시각 정보와 충돌할 경우 이러한 기능이 최종 텍스트 생성에서 제대로 나타나지 않는다는 것을 확인했습니다. 탐색적 분석 결과, 유용한 잠재 오디오 정보가 존재하지만, 심층 융합 레이어는 시각 표현을 우선시하는 경향이 있어 오디오 신호를 억제하는 것으로 나타났습니다. 또한, 이러한 불균형은 학습 과정에서 기인하며, AVLLM의 오디오 동작은 시각-언어 기반 모델과 유사한 경향을 보여주어, 오디오에 대한 추가적인 정렬이 제한적임을 시사합니다. 본 연구는 AVLLM의 근본적인 모달리티 편향을 드러내며, 다중 모드 LLM이 오디오와 시각 정보를 어떻게 통합하는지에 대한 새로운 메커니즘적 통찰력을 제공합니다.

Original Abstract

Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!