2602.02518v1 Jan 24, 2026 cs.LG

GraphDancer: 커리큘럼 강화 학습을 통해 LLM이 그래프를 탐색하고 추론하도록 훈련하는 방법

GraphDancer: Training LLMs to Explore and Reason over Graphs via Curriculum Reinforcement Learning

Yu Zhang
Yu Zhang
Citations: 134
h-index: 5
Ping Nie
Ping Nie
Citations: 167
h-index: 7
Yu Bai
Yu Bai
Citations: 1,151
h-index: 13
Zhuofeng Li
Zhuofeng Li
Citations: 71
h-index: 4
Jianwen Xie
Jianwen Xie
Citations: 25
h-index: 2

대규모 언어 모델(LLM)은 사실성을 향상시키기 위해 점점 더 외부 지식에 의존하고 있지만, 많은 실제 지식 소스가 단순 텍스트가 아닌 이질적인 그래프 형태로 구성되어 있습니다. 이러한 그래프 구조의 지식에 대한 추론은 두 가지 주요 과제를 안고 있습니다: (1) 구조화되고 스키마가 정의된 관계를 탐색하려면 유사성 기반 검색이 아닌 정확한 함수 호출이 필요하며, (2) 복잡한 질문에 대한 답변은 종종 반복적인 정보 검색을 통한 다중 단계 증거 통합을 요구합니다. 본 논문에서는 LLM이 추론과 함수 실행을 번갈아 수행하면서 그래프를 탐색하도록 훈련하는 강화 학습(RL) 프레임워크인 GraphDancer를 제안합니다. 중간 규모의 LLM에 RL을 효과적으로 적용하기 위해, 정보 검색 경로의 구조적 복잡성에 따라 훈련을 계획하는 그래프 인지 커리큘럼을 도입했습니다. 이 커리큘럼은 쉬운 것부터 어려운 것 순으로 샘플링하여 훈련을 진행합니다. GraphDancer는 하나의 도메인에서 훈련하고, 미지의 도메인과 데이터 분포에서 벗어난 질문 유형에 대해 테스트하는 다중 도메인 벤치마크에서 평가되었습니다. 30억 개의 파라미터로 구성된 모델임에도 불구하고, GraphDancer는 140억 개의 파라미터 모델 또는 GPT-4o-mini를 사용하는 기본 모델보다 뛰어난 성능을 보이며, 그래프 탐색 및 추론 기술의 강력한 교차 도메인 일반화 능력을 입증합니다. 저희의 코드와 모델은 https://yuyangbai.com/graphdancer/ 에서 확인할 수 있습니다.

Original Abstract

Large language models (LLMs) increasingly rely on external knowledge to improve factuality, yet many real-world knowledge sources are organized as heterogeneous graphs rather than plain text. Reasoning over such graph-structured knowledge poses two key challenges: (1) navigating structured, schema-defined relations requires precise function calls rather than similarity-based retrieval, and (2) answering complex questions often demands multi-hop evidence aggregation through iterative information seeking. We propose GraphDancer, a reinforcement learning (RL) framework that teaches LLMs to navigate graphs by interleaving reasoning and function execution. To make RL effective for moderate-sized LLMs, we introduce a graph-aware curriculum that schedules training by the structural complexity of information-seeking trajectories using an easy-to-hard biased sampler. We evaluate GraphDancer on a multi-domain benchmark by training on one domain only and testing on unseen domains and out-of-distribution question types. Despite using only a 3B backbone, GraphDancer outperforms baselines equipped with either a 14B backbone or GPT-4o-mini, demonstrating robust cross-domain generalization of graph exploration and reasoning skills. Our code and models can be found at https://yuyangbai.com/graphdancer/ .

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!