부정 처리 마스터: 그룹 기반 반대 학습을 통한 시각-언어 모델 성능 향상
Mastering Negation: Boosting Grounding Models via Grouped Opposition-Based Learning
현재의 시각-언어 감지 및 객체 지시 모델은 주로 긍정적인 의미를 가진 프롬프트에 집중하며, 부정적인 의미를 포함하는 복잡한 표현을 정확하게 해석하고 지시하는 데 어려움을 겪는 경우가 많습니다. 이러한 제한의 주요 원인은 명확한 부정 샘플과 부정에 대한 이해를 포함하는 언어 설명을 담은 고품질 학습 데이터의 부족입니다. 이러한 문제를 해결하기 위해, 긍정적 및 부정적 의미 설명을 모두 포함하는 객체 어노테이션을 제공하는 새로운 데이터셋인 D-Negation을 소개합니다. 자연어에서 부정적인 추론이 자주 나타난다는 점을 바탕으로, 제한된 샘플로부터 부정에 대한 이해를 높이는 그룹 기반 반대 학습 프레임워크를 제안합니다. 구체적으로, 저희 방법은 D-Negation 데이터셋에서 추출한 반대되는 의미 설명을 구조화된 그룹으로 구성하고, 모델이 부정과 의미 수식어에 대해 추론하도록 장려하는 두 가지 상호 보완적인 손실 함수를 정의합니다. 제안된 데이터셋과 학습 전략을 최첨단 시각-언어 객체 지시 모델에 통합했습니다. 모델 파라미터의 10% 미만을 미세 조정하여, 긍정적 및 부정적 의미 평가에서 각각 최대 4.4 mAP 및 5.7 mAP의 성능 향상을 달성했습니다. 이러한 결과는 명시적으로 부정적인 의미를 모델링함으로써 시각-언어 객체 지시 모델의 안정성과 지역화 정확도를 크게 향상시킬 수 있음을 보여줍니다.
Current vision-language detection and grounding models predominantly focus on prompts with positive semantics and often struggle to accurately interpret and ground complex expressions containing negative semantics. A key reason for this limitation is the lack of high-quality training data that explicitly captures discriminative negative samples and negation-aware language descriptions. To address this challenge, we introduce D-Negation, a new dataset that provides objects annotated with both positive and negative semantic descriptions. Building upon the observation that negation reasoning frequently appears in natural language, we further propose a grouped opposition-based learning framework that learns negation-aware representations from limited samples. Specifically, our method organizes opposing semantic descriptions from D-Negation into structured groups and formulates two complementary loss functions that encourage the model to reason about negation and semantic qualifiers. We integrate the proposed dataset and learning strategy into a state-of-the-art language-based grounding model. By fine-tuning fewer than 10 percent of the model parameters, our approach achieves improvements of up to 4.4 mAP and 5.7 mAP on positive and negative semantic evaluations, respectively. These results demonstrate that explicitly modeling negation semantics can substantially enhance the robustness and localization accuracy of vision-language grounding models.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.