AMLRIS: 정렬(alignment) 인지 마스킹 학습을 활용한 객체 지칭 이미지 분할
AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation
객체 지칭 이미지 분할(RIS)은 자연어 표현으로 지정된 이미지 내 객체를 분할하는 것을 목표로 합니다. 본 논문에서는 정렬 인지 마스킹 학습(AML)이라는 훈련 전략을 소개합니다. AML은 픽셀 수준의 시각-언어 정렬을 명시적으로 추정하고, 최적화 과정에서 정렬이 제대로 이루어지지 않은 영역을 제거하며, 신뢰할 수 있는 정보에 집중하여 RIS 성능을 향상시킵니다. 이러한 접근 방식은 RefCOCO 데이터셋에서 최첨단 성능을 달성했으며, 다양한 설명 및 시나리오에 대한 강건성도 향상시킵니다.
Referring Image Segmentation (RIS) aims to segment an object in an image identified by a natural language expression. The paper introduces Alignment-Aware Masked Learning (AML), a training strategy to enhance RIS by explicitly estimating pixel-level vision-language alignment, filtering out poorly aligned regions during optimization, and focusing on trustworthy cues. This approach results in state-of-the-art performance on RefCOCO datasets and also enhances robustness to diverse descriptions and scenarios
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.