MemeLens: 밈 이해를 위한 다국어 다중 작업 비전-언어 모델
MemeLens: Multilingual Multitask VLMs for Memes
밈은 온라인 소통 및 정보 전달의 주요 매체로서, 텍스트, 이미지, 그리고 문화적 맥락 간의 상호작용을 통해 의미가 생성됩니다. 기존 밈 연구는 작업(혐오, 여성 혐오, 선전, 감정, 유머) 및 언어에 따라 분산되어 있어, 다양한 분야로의 일반화에 한계가 있습니다. 이러한 문제점을 해결하기 위해, 우리는 밈 이해를 위한 다국어 다중 작업 설명 기반 비전-언어 모델인 MemeLens를 제안합니다. 우리는 38개의 공개 밈 데이터셋을 통합하고, 데이터셋별 레이블을 공유 가능한 20개의 작업 분류 체계로 매핑했습니다. 이 분류 체계는 유해성, 대상, 비유적/화용적 의도, 그리고 감정 등을 포괄합니다. 우리는 다양한 모델링 방식, 작업 유형, 그리고 데이터셋에 대한 종합적인 실험적 분석을 수행했습니다. 우리의 연구 결과는 강력한 밈 이해를 위해서는 다중 모드 학습이 필요하며, 의미 범주에 따라 상당한 차이를 보이며, 모델이 개별 데이터셋에 대해 과도하게 특화될 경우 성능이 저하될 수 있다는 것을 보여줍니다. 우리는 실험 결과 및 데이터셋을 커뮤니티에 공개할 예정입니다.
Memes are a dominant medium for online communication and manipulation because meaning emerges from interactions between embedded text, imagery, and cultural context. Existing meme research is distributed across tasks (hate, misogyny, propaganda, sentiment, humour) and languages, which limits cross-domain generalization. To address this gap we propose MemeLens, a unified multilingual and multitask explanation-enhanced Vision Language Model (VLM) for meme understanding. We consolidate 38 public meme datasets, filter and map dataset-specific labels into a shared taxonomy of $20$ tasks spanning harm, targets, figurative/pragmatic intent, and affect. We present a comprehensive empirical analysis across modeling paradigms, task categories, and datasets. Our findings suggest that robust meme understanding requires multimodal training, exhibits substantial variation across semantic categories, and remains sensitive to over-specialization when models are fine-tuned on individual datasets rather than trained in a unified setting. We will make the experimental resources and datasets publicly available for the community.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.