MetaphorStar: 엔드 투 엔드 시각 강화 학습을 이용한 이미지 비유 이해 및 추론
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning
이미지 내 비유 이해는 현대 AI 시스템에게 여전히 중요한 과제입니다. 멀티모달 대규모 언어 모델(MLLM)은 기본적인 시각 질의 응답(VQA)에서 뛰어난 성능을 보이지만, 시각 콘텐츠에 내재된 미묘한 문화적, 감정적, 맥락적 의미를 이해하는 데 지속적으로 어려움을 겪습니다. 이러한 어려움은 이 작업이 정교한 다단계 추론, 문화적 맥락, 그리고 현재 모델들이 부족한 마음 이론(ToM) 능력을 요구하기 때문입니다. 이러한 격차를 해소하기 위해, 우리는 이미지 함축 작업에 대한 최초의 엔드 투 엔드 시각 강화 학습(RL) 프레임워크인 MetaphorStar를 제안합니다. 우리의 프레임워크는 세 가지 핵심 구성 요소로 구성됩니다. 즉, 세분화된 데이터셋 TFQ-Data, 시각 RL 방법 TFQ-GRPO, 그리고 잘 구조화된 벤치마크 TFQ-Bench입니다. TFQ-GRPO를 사용하여 TFQ-Data로 훈련된 MetaphorStar 패밀리의 모든 오픈 소스 모델은 이미지 함축 벤치마크에서 평균 82.6%의 성능 향상을 보였습니다. 20개 이상의 주류 MLLM과 비교했을 때, MetaphorStar-32B는 객관식 질문 및 개방형 질문에서 최첨단(SOTA) 성능을 달성했으며, 최고 성능의 폐쇄형 소스 모델인 Gemini-3.0-pro보다 객관식 질문에서 훨씬 뛰어난 성능을 보였습니다. 더욱 중요한 것은, 우리의 실험 결과는 이미지 함축 작업 학습이 일반적인 이해 능력을 향상시키며, 특히 복잡한 시각 추론 능력을 향상시킨다는 것을 보여줍니다. 또한, 우리는 모델 파라미터 크기, 훈련 데이터 크기, 그리고 다양한 모델 아키텍처 및 훈련 전략의 영향을 체계적으로 분석하여, 우리의 방법의 광범위한 적용 가능성을 입증했습니다. 우리는 모든 모델 가중치, 데이터셋, 그리고 방법 코드를 https://metaphorstar.github.io 에서 공개합니다.
Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.