DiffCap-Bench: 이미지 차이 설명 생성에 대한 종합적이고 도전적이며 강력한 벤치마크
DiffCap-Bench: A Comprehensive, Challenging, Robust Benchmark for Image Difference Captioning
이미지 차이 설명 생성(IDC)은 두 이미지 간의 차이점을 정확하게 식별하는 자연어 설명을 생성하며, 미세한 변화 인지, 양방향 추론 및 이미지 편집 데이터 구축을 위한 핵심 벤치마크로 사용됩니다. 그러나 기존 벤치마크는 다양성과 구성 복잡성이 부족하며, 표준적인 어휘 중복 측정 지표(예: BLEU, METEOR)는 의미적 일관성을 반영하지 못하거나 환각 현상을 제대로 평가하지 못하여, 멀티모달 대규모 언어 모델(MLLM)의 IDC 성능을 종합적이고 강력하게 평가하는 데 한계를 갖습니다. 이러한 문제점을 해결하기 위해, 저희는 다양한 차이점을 포괄하고 구성 복잡성을 보장하는 10가지 차이점 범주를 포함하는 종합적인 IDC 벤치마크인 DiffCap-Bench를 소개합니다. 또한, 인간이 검증한 차이 목록을 기반으로 하는 LLM-as-a-Judge 평가 프로토콜을 제안하여, 모델이 시각적 변화를 정확하게 파악하고 설명하는 능력을 강력하게 평가할 수 있도록 합니다. 최첨단 MLLM에 대한 광범위한 평가를 통해, 독점 모델과 오픈 소스 모델 간의 상당한 성능 격차를 밝히고, 추론 능력의 중요성을 강조하며, 모델 확장의 명확한 한계를 보여줍니다. 또한, 저희의 프레임워크는 인간 전문가의 판단과 일치하며, 다운스트림 이미지 편집 데이터 구축 품질과 높은 상관관계를 보입니다. 이러한 결과는 DiffCap-Bench를 신뢰할 수 있는 IDC 평가 프레임워크이자 다운스트림 유용성을 예측하는 실용적인 도구로 확립합니다. 벤치마크와 코드는 향후 연구를 지원하기 위해 공개될 예정입니다.
Image Difference Captioning (IDC) generates natural language descriptions that precisely identify differences between two images, serving as a key benchmark for fine-grained change perception, cross-modal reasoning, and image editing data construction. However, existing benchmarks lack diversity and compositional complexity, and standard lexical-overlap metrics (e.g., BLEU, METEOR) fail to capture semantic consistency or penalize hallucinations, which together prevent a comprehensive and robust evaluation of multimodal large language models (MLLMs) on IDC. To address these gaps, we introduce DiffCap-Bench, a comprehensive IDC benchmark covering ten distinct difference categories to ensure diversity and compositional complexity. Furthermore, we propose an LLM-as-a-Judge evaluation protocol grounded in human-validated Difference Lists, enabling a robust assessment of models' ability to both capture and describe visual changes. Through extensive evaluation of state-of-the-art MLLMs, we reveal significant performance gaps between proprietary and open-source models, highlight the critical importance of reasoning capability, and identify clear limitations in model scaling. Our framework also demonstrates strong alignment with human expert judgments and strong correlation with downstream image editing data construction quality. These findings establish DiffCap-Bench as both a reliable IDC evaluation framework and a practical predictor of downstream utility. The benchmark and code will be made publicly available to support further research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.