2602.05818v1 Feb 05, 2026 cs.AI

TKG-Thinker: 에이전트 강화 학습을 통한 시간적 지식 그래프 기반의 동적 추론

TKG-Thinker: Towards Dynamic Reasoning over Temporal Knowledge Graphs via Agentic Reinforcement Learning

Minlong Peng
Minlong Peng
Citations: 1
h-index: 1
Zihao Jiang
Zihao Jiang
Citations: 76
h-index: 4
Miao Peng
Miao Peng
Wuhan University
Citations: 100
h-index: 5
Zhenyan Shan
Zhenyan Shan
Citations: 4
h-index: 1
Ben Liu
Ben Liu
Citations: 120
h-index: 6
Wenjie Xu
Wenjie Xu
Citations: 119
h-index: 6
Gong Chen
Gong Chen
Citations: 2
h-index: 1
Ziqi Gao
Ziqi Gao
Citations: 18
h-index: 3

시간적 지식 그래프 질의응답(TKGQA)은 시간적 지식 베이스를 활용하여 시간에 민감한 질문에 답하는 것을 목표로 합니다. 대규모 언어 모델(LLM)이 TKGQA 분야에서 상당한 잠재력을 보여주지만, 현재의 프롬프팅 전략은 두 가지 주요 측면에서 효율성을 제한합니다. 첫째, 복잡한 시간적 제약 조건 하에서 추론 환각(hallucination)이 발생하기 쉽습니다. 둘째, 정적 프롬프팅은 시간적 지식 그래프(TKG) 환경과의 동적 상호작용을 통한 최적화가 결여되어 있어 모델의 자율성과 일반화를 제한합니다. 이러한 한계를 극복하기 위해, 우리는 TKG 상에서의 추론을 위한 자율 계획 및 적응형 검색 기능을 갖춘 새로운 에이전트인 TKG-Thinker를 제안합니다. 구체적으로, TKG-Thinker는 이중 훈련 전략을 기반으로 TKG와의 동적 멀티 턴 상호작용을 통해 심층적인 시간적 추론을 수행합니다. 우리는 먼저 생각의 사슬(chain-of-thought) 데이터를 활용한 지도 미세 조정(SFT)을 적용하여 핵심 계획 능력을 배양한 후, 다차원 보상을 활용하여 복잡한 시간적 제약 하에서 추론 정책을 정교화하는 강화 학습(RL) 단계를 진행합니다. 세 가지 오픈 소스 LLM을 이용한 벤치마크 데이터셋 실험 결과, TKG-Thinker가 최첨단(SOTA) 성능을 달성했으며 복잡한 TKGQA 환경 전반에서 강력한 일반화 능력을 발휘함을 확인했습니다.

Original Abstract

Temporal knowledge graph question answering (TKGQA) aims to answer time-sensitive questions by leveraging temporal knowledge bases. While Large Language Models (LLMs) demonstrate significant potential in TKGQA, current prompting strategies constrain their efficacy in two primary ways. First, they are prone to reasoning hallucinations under complex temporal constraints. Second, static prompting limits model autonomy and generalization, as it lack optimization through dynamic interaction with temporal knowledge graphs (TKGs) environments. To address these limitations, we propose \textbf{TKG-Thinker}, a novel agent equipped with autonomous planning and adaptive retrieval capabilities for reasoning over TKGs. Specifically, TKG-Thinker performs in-depth temporal reasoning through dynamic multi-turn interactions with TKGs via a dual-training strategy. We first apply Supervised Fine-Tuning (SFT) with chain-of thought data to instill core planning capabilities, followed by a Reinforcement Learning (RL) stage that leverages multi-dimensional rewards to refine reasoning policies under intricate temporal constraints. Experimental results on benchmark datasets with three open-source LLMs show that TKG-Thinker achieves state-of-the-art performance and exhibits strong generalization across complex TKGQA settings.

1 Citations
0 Influential
3 Altmetric
16.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!