LLM을 활용한 다중 모드 추론: 시각적 의미 연산
Multi-modal Reasoning with LLMs for Visual Semantic Arithmetic
코딩 및 수학 분야에서 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어, 학습 후 강화 학습(RL)은 매우 중요합니다. 그러나 시각적 정보를 기반으로 관계를 추론하는 시각적 의미 연산 능력은 아직 충분히 연구되지 않았습니다. 텍스트 기반의 고전적인 유추 문제인 "king" - "man" + "woman" = "queen"은 관계 추론을 보여주지만, "king"과 "man"을 이미지로 대체하면 성능이 크게 저하됩니다. 이는 상식 지식과 관련 없는 시각적 세부 사항으로부터 간결한 개념을 추출해야 하기 때문입니다. 이러한 능력은 비정형 환경에서 서비스 및 가정용 로봇에 필수적입니다. 가정용 주방에서 "powder"와 "cake"가 "is made of" 관계를 가진다는 것을 이미지로부터 인식하는 것은, 로봇이 객체, 에이전트 및 행동 간의 의미적 관계를 추론하여, 상징적 관계를 인지적으로 연결하는 데 도움을 줍니다. 기존 연구에서는 벡터 연산 후 이미지 특징을 디코딩하여 의미적 연산을 수행하지만, 이 방식은 모달리티 간의 격차로 인해 어려움을 겪으며, 체계적인 평가가 부족합니다. 본 논문에서는 두 가지 새로운 작업인 이항 차연산과 삼항 연산을 정의하고, 성능 평가를 위한 Image-Relation-Pair Dataset (IRPD)을 구축합니다. 또한, 검증 가능한 함수와 그룹 상대 정책 최적화(GRPO)를 사용하여 대규모 시각-언어 모델(LVLM)을 추가 학습시키는 Semantic Arithmetic Reinforcement Fine-Tuning (SAri-RFT) 방법을 제안합니다. 제안하는 방법은 IRPD 및 실제 환경 데이터셋인 Visual7W-Telling에서 최첨단 성능을 달성했습니다. 본 연구는 LVLM에 강력한 교차 모드 관계 추론 능력을 부여함으로써, 가정용 로봇이 인지적 정보로부터 상징적 추론을 수행하는 능력을 향상시켜, 복잡한 환경에서의 의사 결정, 도구 적용 능력 및 인간-로봇 상호작용을 개선합니다. 데이터셋 및 소스 코드는 추가 자료에서 제공됩니다.
Reinforcement learning (RL) as post-training is crucial for enhancing the reasoning ability of large language models (LLMs) in coding and math. However, their capacity for visual semantic arithmetic, inferring relationships from images, remains underexplored. The classic text analogy "king"-"man"+"woman" = "queen" illustrates relational reasoning, yet replacing text with images of "king" and "man" significantly reduces performance because it requires commonsense knowledge and the extraction of concise concepts from irrelevant visual details. This capability is important for service and domestic robotics in unstructured environments, where robots must infer semantic relationships among objects, agents, and actions. In a kitchen, recognizing from images that "powder" and "cake" are related by "is made of" grounds symbolic relations in perception, enabling tool substitution, task generalization, and improved semantic reasoning. Prior work approaches semantic arithmetic by decoding image features after vector arithmetic, but suffers from modality gaps and lacks systematic evaluation. In this paper, we formulate two novel tasks, two-term subtraction and three-term operations, and construct the Image-Relation-Pair Dataset (IRPD) for benchmarking. We further propose Semantic Arithmetic Reinforcement Fine-Tuning (SAri-RFT), which post-trains large vision-language models (LVLMs) using a verifiable function and Group Relative Policy Optimization (GRPO). Our method achieves state-of-the-art results on IRPD and the real-world Visual7W-Telling dataset. By equipping LVLMs with robust cross-modal relational reasoning, this work advances domestic robots' ability to ground symbolic reasoning in perception, enhancing decision-making, tool adaptability, and human-robot interaction in complex environments. Datasets and source code are provided in the supplementary material.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.