2603.01385v1 Mar 02, 2026 cs.CL

재구성 그래프 지시 학습을 통한 그래프 토큰화 대규모 언어 모델 연구

Toward Graph-Tokenizing Large Language Models with Reconstructive Graph Instruction Tuning

Xiao Wang
Xiao Wang
Citations: 10,004
h-index: 33
Jiarui Tan
Jiarui Tan
Citations: 2
h-index: 1
Chuan Shi
Chuan Shi
Citations: 34
h-index: 3
Zhongjian Zhang
Zhongjian Zhang
Citations: 44
h-index: 4
Mengmei Zhang
Mengmei Zhang
Beijing University of Posts and Telecommunications
Citations: 480
h-index: 10

대규모 언어 모델(LLM)의 뛰어난 성공은 연구자들에게 다양한 그래프 관련 작업에 LLM을 적용하여 다양한 시나리오에 일반화할 수 있는 그래프 기반 모델을 개발하도록 영감을 주었습니다. 핵심 과제는 그래프 데이터를 언어 공간과 일치시켜 LLM이 그래프를 더 잘 이해할 수 있도록 하는 것입니다. 널리 사용되는 방법인 그래프 토큰화 LLM(GTokenLLM)은 복잡한 구조와 긴 텍스트를 그래프 토큰 시퀀스로 인코딩하고, 언어 지시 학습을 통해 이를 텍스트 토큰과 일치시킵니다. 초기 성공에도 불구하고, 우리의 정보 이론적 분석에 따르면 기존의 GTokenLLM은 언어 지시에서 제공되는 텍스트 감독만 사용하여 암묵적인 그래프-텍스트 정렬을 수행하며, 이는 텍스트 중심적인 편향을 초래하여 그래프 컨텍스트를 충분히 활용하지 못합니다. 이러한 제한을 극복하기 위해, 우리는 먼저 정렬 목표가 LLM 내의 입력 그래프와 숨겨진 표현 사이의 상호 정보로 상한이 제한된다는 것을 증명했습니다. 이를 바탕으로 우리는 이 상한을 개선하여 더 나은 정렬을 달성하고자 합니다. 이를 위해, 우리는 재구성 그래프 지시 학습 파이프라인인 RGLM을 제안합니다. 우리의 핵심 아이디어는 LLM의 그래프 토큰 출력에서 그래프 정보를 재구성하여, 정렬 과정을 제약하기 위해 명시적인 그래프 감독을 포함하는 것입니다. 기술적으로, 우리는 세 가지 서로 다른 변형을 두 가지 상호 보완적인 관점에서 탐색하여 RGLM을 구현합니다. 즉, 입력 공간에서 RGLM-Decoder, 잠재 공간에서 RGLM-Similarizer 및 RGLM-Denoiser를 사용합니다. 또한, 우리는 각 변형의 정렬 효과를 이론적으로 분석했습니다. 다양한 벤치마크 및 작업 시나리오에서의 광범위한 실험은 제안된 RGLM의 효과를 검증하며, GTokenLLM의 정렬 연구에 새로운 방향을 제시합니다.

Original Abstract

The remarkable success of large language models (LLMs) has motivated researchers to adapt them as universal predictors for various graph-related tasks, with the ultimate goal of developing a graph foundation model that generalizes diverse scenarios. The key challenge is to align graph data with language spaces so that LLMs can better comprehend graphs. As a popular paradigm, Graph-Tokenizing LLMs (GTokenLLMs) encode complex structures and lengthy texts into a graph token sequence, and then align them with text tokens via language instructions tuning. Despite their initial success, our information-theoretic analysis reveals that existing GTokenLLMs rely solely on text supervision from language instructions, which achieve only implicit graph-text alignment, resulting in a text-dominant bias that underutilizes graph context. To overcome this limitation, we first prove that the alignment objective is upper-bounded by the mutual information between the input graphs and their hidden representations in the LLM, which motivates us to improve this upper bound to achieve better alignment. To this end, we further propose a reconstructive graph instruction tuning pipeline, RGLM. Our key idea is to reconstruct the graph information from the LLM's graph token outputs, explicitly incorporating graph supervision to constrain the alignment process. Technically, we embody RGLM by exploring three distinct variants from two complementary perspectives: RGLM-Decoder from the input space; RGLM-Similarizer and RGLM-Denoiser from the latent space. Additionally, we theoretically analyze the alignment effectiveness of each variant. Extensive experiments on various benchmarks and task scenarios validate the effectiveness of the proposed RGLM, paving the way for new directions in GTokenLLMs' alignment research.

0 Citations
0 Influential
16.5 Altmetric
82.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!