UrbanKGent: 도시 지식 그래프 구축을 위한 통합 대규모 언어 모델 에이전트 프레임워크
UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction
도시 지식 그래프는 최근 다양한 도시 응용 시나리오를 위해 다중 소스 도시 데이터에서 핵심 지식을 추출하는 새로운 구성 요소로 작용하고 있습니다. 유망한 이점에도 불구하고, 도시 지식 그래프 구축(UrbanKGC)은 여전히 수작업에 크게 의존하고 있어 발전 가능성을 저해하고 있습니다. 본 논문은 도시 지식 그래프 구축을 위한 통합 대규모 언어 모델 에이전트 프레임워크인 UrbanKGent를 제안합니다. 구체적으로, 우리는 먼저 이질성을 인식하고 지리공간 정보를 주입한 명령어 생성을 통해 UrbanKGC 작업(관계 트리플렛 추출 및 지식 그래프 완성 등)을 위한 지식 기반 명령어 세트를 구축합니다. 또한, GPT-4에서 추출된 궤적을 향상시키고 정제하기 위해 도구 증강 반복적 궤적 정제 모듈을 제안합니다. Llama 2 및 Llama 3 모델군에 증강된 궤적을 사용한 하이브리드 명령어 미세 조정을 적용하여, UrbanKGent-7/8/13B 버전으로 구성된 UrbanKGC 에이전트 패밀리를 확보했습니다. 우리는 인간 평가와 GPT-4 자체 평가를 모두 사용하여 두 개의 실제 데이터셋에 대해 포괄적인 평가를 수행했습니다. 실험 결과에 따르면 UrbanKGent 패밀리는 UrbanKGC 작업에서 31개의 베이스라인 성능을 크게 앞설 뿐만 아니라, 최첨단 LLM인 GPT-4보다 약 20배 낮은 비용으로 10% 이상 우수한 성능을 보이는 것으로 나타났습니다. 기존 벤치마크와 비교할 때, UrbanKGent 패밀리는 5분의 1 수준의 데이터만 사용하여 수백 배 더 풍부한 관계를 가진 도시 지식 그래프를 구축하는 데 기여할 수 있습니다. 데이터와 코드는 https://github.com/usail-hkust/UrbanKGent 에서 확인할 수 있습니다.
Urban knowledge graph has recently worked as an emerging building block to distill critical knowledge from multi-sourced urban data for diverse urban application scenarios. Despite its promising benefits, urban knowledge graph construction (UrbanKGC) still heavily relies on manual effort, hindering its potential advancement. This paper presents UrbanKGent, a unified large language model agent framework, for urban knowledge graph construction. Specifically, we first construct the knowledgeable instruction set for UrbanKGC tasks (such as relational triplet extraction and knowledge graph completion) via heterogeneity-aware and geospatial-infused instruction generation. Moreover, we propose a tool-augmented iterative trajectory refinement module to enhance and refine the trajectories distilled from GPT-4. Through hybrid instruction fine-tuning with augmented trajectories on Llama 2 and Llama 3 family, we obtain UrbanKGC agent family, consisting of UrbanKGent-7/8/13B version. We perform a comprehensive evaluation on two real-world datasets using both human and GPT-4 self-evaluation. The experimental results demonstrate that UrbanKGent family can not only significantly outperform 31 baselines in UrbanKGC tasks, but also surpass the state-of-the-art LLM, GPT-4, by more than 10% with approximately 20 times lower cost. Compared with the existing benchmark, the UrbanKGent family could help construct an UrbanKG with hundreds of times richer relationships using only one-fifth of the data. Our data and code are available at https://github.com/usail-hkust/UrbanKGent.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.