2605.01310v1 May 02, 2026 cs.LG

GraphSculptor: 그래프 자기 지도 학습을 위한 사전 훈련 핵심 데이터셋 구축

GraphSculptor: Sculpting Pre-training Coreset for Graph Self-supervised Learning

Luzhi Wang
Luzhi Wang
Citations: 54
h-index: 4
Chuang Liu
Chuang Liu
Citations: 405
h-index: 10
Zelin Yao
Zelin Yao
Citations: 35
h-index: 3
Xueqi Ma
Xueqi Ma
Citations: 75
h-index: 5
Mukun Chen
Mukun Chen
Citations: 25
h-index: 3
Pinghua Xu
Pinghua Xu
Citations: 143
h-index: 5
Wenbin Hu
Wenbin Hu
Citations: 669
h-index: 9

그래프 자기 지도 학습은 일반적으로 대규모의 레이블 없는 데이터셋에 의존하며, 이로 인해 계산 비용이 크게 증가합니다. 그러나 경험적 증거에 따르면 이러한 데이터셋에는 상당한 중복성이 존재하며, 저희의 분석 결과에 따르면 그래프의 50%를 균일하게 샘플링해도 다운스트림 성능의 96% 이상을 유지할 수 있습니다. 이러한 중복성을 활용하기 위해, 사전 훈련을 위한 핵심 데이터셋을 구축하는 GraphSculptor를 제안합니다. GraphSculptor는 추가적인 학습 시간 신호에 의존하거나, 위상 통계만 사용하는 기존 방법과는 달리, 레이블이 없는 방식으로 작동하며, 내재적 구조와 문맥적 의미라는 두 가지 상호 보완적인 관점에서 핵심 데이터셋을 구축합니다. 구체적으로, 구조적 다양성은 내재적 그래프 통계를 사용하여 정량화하며, 각 그래프에 대한 구조적 특징 벡터를 생성합니다. 또한, 그래프-텍스트 변환을 통해 생성된 설명을 사전 학습된 언어 모델을 사용하여 인코딩하여 의미적 다양성을 포착합니다. GraphSculptor는 이러한 신호들을 통합된 메트릭 공간으로 통합하고, 클러스터 기반 선택을 통해 구조적-의미적 다양성을 함께 보존합니다. 또한, 핵심 데이터셋과 전체 데이터셋을 사용하여 사전 훈련할 때의 손실 차이에 대한 이론적 경계를 도출하여, 저희의 선택 방식에 대한 이론적 근거를 제공합니다. 광범위한 실험 결과는 GraphSculptor가 데이터셋을 효과적으로 구성한다는 것을 보여줍니다. 10%의 핵심 데이터셋만 사용해도 전체 데이터셋 성능의 99.6%를 달성하면서 사전 훈련 시간을 약 90% 줄일 수 있으며, 이는 데이터 효율적인 그래프 사전 훈련을 위한 확장 가능한 솔루션을 제공합니다.

Original Abstract

Graph self-supervised learning typically relies on large-scale unlabeled datasets, heavily inflating computational costs. However, empirical evidence suggests that these datasets contain substantial redundancy-our analysis reveals that uniformly subsampling 50% of graphs retains over 96% of downstream performance. To exploit this redundancy, we introduce GraphSculptor for pre-training coreset construction. Unlike methods dependent on additional training-time signals or limited solely to topological statistics, GraphSculptor provides a label-free solution that constructs coresets via two complementary perspectives: intrinsic structure and contextual semantics. Concretely, structural diversity is quantified using intrinsic graph statistics, yielding a structural feature vector for each graph, while semantic diversity is captured by utilizing a pre-trained language model to encode descriptions generated via graph-to-text. GraphSculptor integrates these signals into a unified metric space and performs cluster-aware selection to preserve joint structural-semantic diversity. We further derive a theoretical bound on the loss gap between coreset and full-data pre-training, offering theoretical motivation for our selection formulation. Extensive experiments demonstrate that GraphSculptor effectively sculpts the dataset: a 10% coreset achieves 99.6% of full-data performance while reducing pre-training time by nearly 90%, offering a scalable solution for data-efficient graph pre-training.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!