검증 가능한 추론을 위한 멀티모달 사실 수준 출처 표기
Multimodal Fact-Level Attribution for Verifiable Reasoning
멀티모달 대형 언어 모델(MLLM)은 다단계 추론과 장문 생성을 포함하는 실제 작업에 점점 더 많이 사용되고 있으며, 이러한 작업에서 신뢰성을 확보하려면 이질적인 입력 소스에 모델 출력의 근거를 두고(grounding) 개별적인 사실 주장을 검증해야 합니다. 그러나 기존의 멀티모달 그라운딩 벤치마크와 평가 방법론은 단순화된 관찰 기반 시나리오나 제한된 모달리티에만 초점을 맞추고 있어, 복잡한 멀티모달 추론에서의 출처 표기(attribution)를 제대로 평가하지 못합니다. 우리는 직접적인 관찰을 넘어선 추론이 요구되는 환경에서 사실 수준의 멀티모달 출처 표기를 평가하기 위한 벤치마크인 MuRGAt(Multimodal Reasoning with Grounded Attribution)를 소개합니다. 비디오, 오디오 및 기타 모달리티 전반에 걸친 입력이 주어지면, MuRGAt는 모델이 명시적인 추론과 정확한 인용을 포함하는 답변을 생성하도록 요구하며, 이때 각 인용은 모달리티와 시간적 구간을 모두 명시해야 합니다. 신뢰할 수 있는 평가를 가능하게 하기 위해, 우리는 인간의 판단과 강한 상관관계를 보이는 자동 평가 프레임워크를 도입합니다. 인간 및 자동화 점수를 활용한 벤치마킹 결과에 따르면, 성능이 뛰어난 MLLM조차도 올바른 추론에도 불구하고 인용 부분에서 종종 환각(hallucination)을 일으키는 것으로 나타났습니다. 나아가 우리는 중요한 트레이드오프를 관찰했습니다. 추론의 깊이를 늘리거나 구조화된 그라운딩을 강제하는 것이 종종 정확도 저하로 이어졌으며, 이는 모델의 내부 추론과 검증 가능한 출처 표기 사이에 상당한 간극이 존재함을 시사합니다.
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.