구조화된 관련성 그래프를 통한 시각-언어 모델의 인과적 추론 진단
Diagnosing Causal Reasoning in Vision-Language Models via Structured Relevance Graphs
대규모 시각-언어 모델(LVLM)은 시각적 질문 응답 벤치마크에서 뛰어난 성능을 보이지만, 종종 실제 인과적 추론보다는 표면적인 상관관계에 의존하는 경향이 있습니다. 기존 평가 방법은 주로 답변의 정확성을 평가하는데, 이러한 실패가 제한적인 추론 능력 때문인지, 아니면 인과적으로 관련된 정보를 잘못 식별했기 때문인지 명확하지 않습니다. 본 연구에서는 시각-언어 인과 그래프(VLCG)를 제안합니다. VLCG는 구조화되고, 쿼리에 따라 달라지는 표현 방식으로, 인과적으로 관련된 객체, 속성, 관계, 그리고 장면 기반의 가정을 명시적으로 포함합니다. 이러한 표현 방식을 바탕으로, 인과적 귀속, 인과적 추론, 그리고 질문 응답을 위한 다양한 작업으로 구성된 진단 벤치마크인 ViLCaR을 제시합니다. 또한, 최종 답변의 정확성뿐만 아니라 관련성 식별을 평가하는 그래프 기반 평가 지표를 함께 제공합니다. 최첨단 LVLM에 대한 실험 결과, 구조화된 관련성 정보를 주입하면 제로샷 학습 및 표준 인컨텍스트 학습에 비해 인과적 귀속 및 추론의 일관성이 크게 향상되는 것을 확인했습니다. 이러한 결과는 현재 LVLM의 인과적 추론 능력의 한계가 추론 능력 부족보다는 구조적인 지침 부족에서 주로 비롯된다는 것을 시사합니다.
Large Vision-Language Models (LVLMs) achieve strong performance on visual question answering benchmarks, yet often rely on spurious correlations rather than genuine causal reasoning. Existing evaluations primarily assess the correctness of the answers, making it unclear whether failures arise from limited reasoning capability or from misidentifying causally relevant information. We introduce Vision-Language Causal Graphs (VLCGs), a structured, query-conditioned representation that explicitly encodes causally relevant objects, attributes, relations, and scene-grounded assumptions. Building on this representation, we present ViLCaR, a diagnostic benchmark comprising tasks for Causal Attribution, Causal Inference, and Question Answering, along with graph-aligned evaluation metrics that assess relevance identification beyond final answer accuracy. Experiments in state-of-the-art LVLMs show that injecting structured relevance information significantly improves attribution and inference consistency compared to zero-shot and standard in-context learning. These findings suggest that current limitations in LVLM causal reasoning stem primarily from insufficient structural guidance rather than a lack of reasoning capacity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.