세분화 후 감사: 언어 기반 오디오-비디오 세분화의 참조 없이 마스크 품질 평가
Audit After Segmentation: Reference-Free Mask Quality Assessment for Language-Referred Audio-Visual Segmentation
언어 기반 오디오-비디오 세분화(Ref-AVS)는 비디오, 오디오 및 텍스트 정보를 종합적으로 활용하여 자연어로 설명된 대상 객체를 세분화하는 것을 목표로 합니다. 세분화 마스크를 생성하는 것 외에도, 마스크 품질에 대한 풍부하고 해석 가능한 진단을 제공하는 것은 아직 충분히 연구되지 않았습니다. 본 연구에서는 Ref-AVS 맥락에서 마스크 품질 평가(MQA-RefAVS)라는 새로운 작업을 소개합니다. 이 작업은 추론 시에 참조 데이터(ground-truth annotation) 없이 후보 세분화 마스크의 품질을 평가합니다. 오디오-비디오-언어 입력과 제공된 각 세분화 마스크가 주어지면, 이 작업은 해당 마스크의 관측되지 않은 정답과의 IoU(Intersection over Union)를 추정하고, 해당하는 오류 유형을 식별하며, 실행 가능한 품질 관리 결정을 제안해야 합니다. 이 작업을 지원하기 위해, 우리는 다양한 기하학적 및 의미론적 문제를 포괄하는 다양한 마스크 오류 모드를 특징으로 하는 벤치마크인 MQ-RAVSBench를 구축했습니다. 또한, 우리는 다중 모드 대규모 언어 모델(MLLM) 기반 감사 도구인 MQ-Auditor를 제안합니다. MQ-Auditor는 다중 모드 단서와 마스크 정보를 명시적으로 활용하여 정량적 및 정성적 마스크 품질 평가를 수행합니다. 광범위한 실험 결과, MQ-Auditor는 강력한 오픈 소스 및 상용 MLLM을 능가하며, 기존의 Ref-AVS 시스템과 통합되어 세분화 실패를 감지하고 하위 단계의 세분화 개선을 지원할 수 있음이 입증되었습니다. 데이터 및 코드는 https://github.com/jasongief/MQA-RefAVS 에서 공개될 예정입니다.
Language-referred audio-visual segmentation (Ref-AVS) aims to segment target objects described by natural language by jointly reasoning over video, audio, and text. Beyond generating segmentation masks, providing rich and interpretable diagnoses of mask quality remains largely underexplored. In this work, we introduce Mask Quality Assessment in the Ref-AVS context (MQA-RefAVS), a new task that evaluates the quality of candidate segmentation masks without relying on ground-truth annotations as references at inference time. Given audio-visual-language inputs and each provided segmentation mask, the task requires estimating its IoU with the unobserved ground truth, identifying the corresponding error type, and recommending an actionable quality-control decision. To support this task, we construct MQ-RAVSBench, a benchmark featuring diverse and representative mask error modes that span both geometric and semantic issues. We further propose MQ-Auditor, a multimodal large language model (MLLM)-based auditor that explicitly reasons over multimodal cues and mask information to produce quantitative and qualitative mask quality assessments. Extensive experiments demonstrate that MQ-Auditor outperforms strong open-source and commercial MLLMs and can be integrated with existing Ref-AVS systems to detect segmentation failures and support downstream segmentation improvement. Data and codes will be released at https://github.com/jasongief/MQA-RefAVS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.