추론 동역학 및 시각-언어 모델에서 모달리티 의존성(특히 시각 정보 의존성)의 한계
Reasoning Dynamics and the Limits of Monitoring Modality Reliance in Vision-Language Models
최근 시각-언어 모델(VLM)의 발전은 추론 능력을 제공하지만, 이러한 추론 과정이 어떻게 전개되고 시각 및 텍스트 정보를 통합하는지는 여전히 명확하지 않습니다. 본 연구에서는 지시 튜닝 및 추론 훈련을 거친 두 가지 모델 계열에서 총 18개의 VLM에 대한 추론 동역학을 분석합니다. 우리는 Chain-of-Thought (CoT) 과정을 통해 모델의 확신도를 추적하고, 추론의 교정 효과를 측정하며, 중간 추론 단계의 기여도를 평가합니다. 연구 결과, 모델들은 종종 '답변 관성' 현상을 보이는 것으로 나타났습니다. 즉, 초기 예측에 대한 약속이 추론 과정에서 수정되기보다는 강화되는 경향이 있습니다. 추론 훈련을 거친 모델은 더 강력한 교정 효과를 보이지만, 이러한 효과는 텍스트 중심 환경부터 시각 정보만 활용하는 환경까지 다양한 모달리티 조건에 따라 달라집니다. 우리는 통제된 개입을 통해 오해를 유발하는 텍스트 정보를 사용하여, 모델이 시각적 증거가 충분한 경우에도 이러한 텍스트 정보에 지속적으로 영향을 받는다는 것을 보여줍니다. 또한, 이러한 영향이 CoT를 통해 얼마나 감지될 수 있는지 평가합니다. CoT에 이러한 영향이 나타날 수 있지만, 그 감지 가능성은 모델마다 다르고, 모니터링 대상에 따라 달라집니다. 추론 훈련을 거친 모델은 텍스트 정보에 대해 더 명시적으로 언급하는 경향이 있지만, 그들의 길고 유창한 CoT는 실제로 텍스트 정보를 따르고 있음에도 불구하고 시각적으로 기반을 둔 것처럼 보일 수 있으며, 이는 모달리티 의존성을 가리고 있습니다. 반면, 지시 튜닝을 거친 모델은 텍스트 정보에 대해 덜 명시적으로 언급하지만, 그들의 짧은 추론 과정은 시각 입력과 불일치하는 점을 드러냅니다. 종합적으로, 본 연구 결과는 CoT가 VLM의 의사 결정 과정을 이해하는 데 부분적인 정보만을 제공하며, 다중 모달 시스템의 투명성과 안전성에 중요한 시사점을 가진다는 것을 보여줍니다.
Recent advances in vision language models (VLMs) offer reasoning capabilities, yet how these unfold and integrate visual and textual information remains unclear. We analyze reasoning dynamics in 18 VLMs covering instruction-tuned and reasoning-trained models from two different model families. We track confidence over Chain-of-Thought (CoT), measure the corrective effect of reasoning, and evaluate the contribution of intermediate reasoning steps. We find that models are prone to answer inertia, in which early commitments to a prediction are reinforced, rather than revised during reasoning steps. While reasoning-trained models show stronger corrective behavior, their gains depend on modality conditions, from text-dominant to vision-only settings. Using controlled interventions with misleading textual cues, we show that models are consistently influenced by these cues even when visual evidence is sufficient, and assess whether this influence is recoverable from CoT. Although this influence can appear in the CoT, its detectability varies across models and depends on what is being monitored. Reasoning-trained models are more likely to explicitly refer to the cues, but their longer and fluent CoTs can still appear visually grounded while actually following textual cues, obscuring modality reliance. In contrast, instruction-tuned models refer to the cues less explicitly, but their shorter traces reveal inconsistencies with the visual input. Taken together, these findings indicate that CoT provides only a partial view of how different modalities drive VLM decisions, with important implications for the transparency and safety of multimodal systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.