2602.23632v1 Feb 27, 2026 cs.AI

MMKG-RDS: 다중 모드 지식 그래프 심층 분석을 통한 추론 데이터 합성

MMKG-RDS: Reasoning Data Synthesis via Deep Mining of Multimodal Knowledge Graphs

L. Zhan
L. Zhan
Citations: 15
h-index: 2
Feng Xiong
Feng Xiong
Citations: 94
h-index: 5
Huanyong Liu
Huanyong Liu
Citations: 7
h-index: 1
Feng Zhang
Feng Zhang
Citations: 14
h-index: 2
Yu Yin
Yu Yin
Citations: 9
h-index: 2

고품질 학습 데이터 합성은 도메인 모델의 추론 능력을 향상시키는 데 매우 중요합니다. 기존 방법들은 장기적인 지식 범위, 효과성 검증, 그리고 해석 가능성 측면에서 한계를 가지고 있습니다. 지식 그래프 기반 접근 방식 또한 기능, 세분성, 사용자 정의 가능성, 그리고 평가 측면에서 부족한 점이 있습니다. 이러한 문제점을 해결하기 위해, 우리는 다중 모드 지식 그래프를 활용하여 추론 데이터 합성을 위한 유연한 프레임워크인 MMKG-RDS를 제안합니다. MMKG-RDS는 세분화된 지식 추출, 사용자 정의 경로 샘플링, 그리고 다차원 데이터 품질 평가를 지원합니다. 우리는 MMKG-RDS-Bench 데이터셋을 사용하여 MMKG-RDS를 검증했는데, 이 데이터셋은 5개의 도메인, 17가지 작업 유형, 그리고 14,950개의 샘플을 포함합니다. 실험 결과, 합성된 소량의 데이터로 Qwen3 모델(0.6B/8B/32B)을 미세 조정하면 추론 정확도가 9.2% 향상되는 것을 확인했습니다. 또한, 이 프레임워크는 기존 모델에 도전하는 다양한 데이터를 생성하며, 특히 테이블 및 수식을 포함하는 작업에 유용하여 복잡한 벤치마크 구축에 활용될 수 있습니다. 데이터셋과 코드는 https://github.com/360AILAB-NLP/MMKG-RDS 에서 확인할 수 있습니다.

Original Abstract

Synthesizing high-quality training data is crucial for enhancing domain models' reasoning abilities. Existing methods face limitations in long-tail knowledge coverage, effectiveness verification, and interpretability. Knowledge-graph-based approaches still fall short in functionality, granularity, customizability, and evaluation. To address these issues, we propose MMKG-RDS, a flexible framework for reasoning data synthesis that leverages multimodal knowledge graphs. It supports fine-grained knowledge extraction, customizable path sampling, and multidimensional data quality scoring. We validate MMKG-RDS with the MMKG-RDS-Bench dataset, covering five domains, 17 task types, and 14,950 samples. Experimental results show fine-tuning Qwen3 models (0.6B/8B/32B) on a small number of synthesized samples improves reasoning accuracy by 9.2%. The framework also generates distinct data, challenging existing models on tasks involving tables and formulas, useful for complex benchmark construction. The dataset and code are available at https://github.com/360AILAB-NLP/MMKG-RDS

0 Citations
0 Influential
29.431471805599 Altmetric
147.2 Score
Original PDF
3

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!