CrossCult-KIBench: 다문화 지식 삽입을 위한 멀티모달 대규모 언어 모델 벤치마크
CrossCult-KIBench: A Benchmark for Cross-Cultural Knowledge Insertion in MLLMs
주로 영어 중심 데이터로 학습된 멀티모달 대규모 언어 모델(MLLM)은 다양한 문화적 배경에서 부적절하거나 일치하지 않는 응답을 자주 생성합니다. 이를 해결하기 위해, 우리는 특정 문화적 맥락에 맞춰 모델을 조정하면서 다른 문화에서의 원래 동작을 유지하는 '다문화 지식 삽입'이라는 작업을 제안합니다. 이 분야의 연구를 촉진하기 위해, 우리는 지식 삽입의 효과성과 대상이 아닌 문화에 대한 의도하지 않은 부작용을 평가하는 종합적인 평가 벤치마크인 CrossCult-KIBench를 소개합니다. 이 벤치마크는 영어, 중국어, 아랍어 언어-문화 그룹에 걸쳐 49가지의 문화적으로 관련된 시각적 시나리오를 포함하는 9,800개의 이미지 기반 사례를 포함합니다. 이는 단일 삽입 및 순차적 삽입 환경 모두에서 평가를 지원합니다. 또한, 우리는 기준 방법론으로 '메모리 기반 조건부 지식 삽입(MCKI)'을 제안합니다. MCKI는 동결된 MLLM 표현을 사용하여 외부 메모리에서 관련 문화적 지식을 검색하고, 필요한 경우 일치하는 항목을 조건부 프롬프트로 추가합니다. CrossCult-KIBench에서의 광범위한 실험 결과, 현재의 접근 방식은 효과적인 문화적 적응과 행동 유지 사이의 균형을 맞추는 데 어려움을 겪으며, 이는 문화적으로 민감한 MLLM을 개발하는 데 있어 중요한 과제임을 보여줍니다. 따라서, 우리의 연구는 보다 문화적으로 적응력이 뛰어나고 책임감 있는 MLLM을 개발하기 위한 중요한 연구 방향을 제시합니다.
Multimodal Large Language Models (MLLMs), trained primarily on English-centric data, frequently generate culturally inappropriate or misaligned responses in cross-cultural settings. To mitigate this, we introduce the task of cross-cultural knowledge insertion, which focuses on adapting models to specific cultural contexts while preserving their original behavior in other cultures. To facilitate research in this area, we introduce CrossCult-KIBench, a comprehensive evaluation benchmark for assessing both the effectiveness of knowledge insertion and its unintended side effects on non-target cultures. The benchmark includes 9,800 image-grounded cases covering 49 culturally relevant visual scenarios across English, Chinese, and Arabic language-culture groups. It supports evaluation in both single-insert and sequential-insert settings. We also propose Memory-Conditioned Knowledge Insertion (MCKI) as a baseline method. MCKI retrieves relevant cultural knowledge from an external memory using frozen MLLM representations, prepending matched entries as conditional prompts when applicable. Extensive experiments on CrossCult-KIBench reveal that current approaches struggle to balance effective cultural adaptation with behavioral preservation, highlighting a key challenge in developing culturally-aware MLLMs. Our work thus underscores an important research direction for developing more culturally adaptive and responsible MLLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.