그래프 토큰화 기반 대규모 언어 모델 재검토: 그래프 토큰 이해에 대한 체계적인 평가
Revisiting Graph-Tokenizing Large Language Models: A Systematic Evaluation of Graph Token Understanding
대규모 언어 모델(LLM)의 뛰어난 성공은 연구자들이 이를 다양한 그래프 관련 작업의 범용 예측 모델로 활용하도록 이끌었습니다. 널리 인정받는 패러다임인 그래프 토큰화 LLM(GTokenLLM)은 복잡한 그래프 데이터를 그래프 토큰으로 압축하고, 이를 LLM 질의의 접두사 토큰으로 사용하여 LLM이 그래프를 더욱 효과적이고 효율적으로 이해할 수 있다고 여겨집니다. 본 논문에서는 이러한 믿음에 도전합니다. 즉, "GTokenLLM이 자연어 임베딩 공간에서 그래프 토큰을 완전히 이해하는가?"라는 질문에 대한 탐구를 진행합니다. 이러한 질문에 따라, 우리는 GTokenLLM에 대한 통일된 프레임워크를 정의하고, 형식 및 내용 수준에서의 지시문 변환을 통해 그래프 토큰 이해를 평가하는 평가 파이프라인인 GTEval을 제안합니다. 우리는 GTEval을 사용하여 6가지 대표적인 GTokenLLM에 대한 광범위한 실험을 수행했습니다. 주요 결과는 다음과 같습니다. (1) 기존 GTokenLLM은 그래프 토큰을 완전히 이해하지 못합니다. 이들은 지시문 변경에 대해 과도하게 민감하거나 둔감한 반응을 보이며, 추론에 크게 의존하는 경향이 있습니다. (2) 그래프 토큰은 작업과 관련된 그래프 정보를 유지하고 LLM 레이어 전반에 걸쳐 주의를 받지만, 모델 및 지시문 변형에 따라 활용도가 달라집니다. (3) 추가적인 지시문 튜닝은 원래 및 기존 지시문에 대한 성능을 향상시킬 수 있지만, 그래프 토큰 이해의 근본적인 문제를 완전히 해결하지 못하며, 추가적인 개선이 필요합니다.
The remarkable success of large language models (LLMs) has motivated researchers to adapt them as universal predictors for various graph tasks. As a widely recognized paradigm, Graph-Tokenizing LLMs (GTokenLLMs) compress complex graph data into graph tokens and treat them as prefix tokens for querying LLMs, leading many to believe that LLMs can understand graphs more effectively and efficiently. In this paper, we challenge this belief: \textit{Do GTokenLLMs fully understand graph tokens in the natural-language embedding space?} Motivated by this question, we formalize a unified framework for GTokenLLMs and propose an evaluation pipeline, \textbf{GTEval}, to assess graph-token understanding via instruction transformations at the format and content levels. We conduct extensive experiments on 6 representative GTokenLLMs with GTEval. The primary findings are as follows: (1) Existing GTokenLLMs do not fully understand graph tokens. They exhibit over-sensitivity or over-insensitivity to instruction changes, and rely heavily on text for reasoning; (2) Although graph tokens preserve task-relevant graph information and receive attention across LLM layers, their utilization varies across models and instruction variants; (3) Additional instruction tuning can improve performance on the original and seen instructions, but it does not fully address the challenge of graph-token understanding, calling for further improvement.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.