AMLRIS: 정렬(alignment) 인지 마스킹 학습을 활용한 객체 지칭 이미지 분할
AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation
객체 지칭 이미지 분할(RIS)은 자연어 표현으로 지정된 이미지 내 객체를 분할하는 것을 목표로 합니다. 본 논문에서는 정렬 인지 마스킹 학습(AML)이라는 훈련 전략을 소개합니다. AML은 픽셀 수준의 시각-언어 정렬을 명시적으로 추정하고, 최적화 과정에서 정렬이 제대로 이루어지지 않은 영역을 제거하며, 신뢰할 수 있는 정보에 집중하여 RIS 성능을 향상시킵니다. 이러한 접근 방식은 RefCOCO 데이터셋에서 최첨단 성능을 달성했으며, 다양한 설명 및 시나리오에 대한 강건성도 향상시킵니다.
Referring Image Segmentation (RIS) aims to segment an object in an image identified by a natural language expression. The paper introduces Alignment-Aware Masked Learning (AML), a training strategy to enhance RIS by explicitly estimating pixel-level vision-language alignment, filtering out poorly aligned regions during optimization, and focusing on trustworthy cues. This approach results in state-of-the-art performance on RefCOCO datasets and also enhances robustness to diverse descriptions and scenarios
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.