2601.08187v2 Jan 13, 2026 cs.AI

동질성 인식 구조 및 의미적 텍스트 속성 그래프 압축을 통한 LLM 추론 개선

Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression

Zijun Di
Zijun Di
Citations: 1
h-index: 1
Bin Lu
Bin Lu
Shanghai Jiao Tong University
Citations: 366
h-index: 7
Huquan Kang
Huquan Kang
Citations: 38
h-index: 4
Luoyi Fu
Luoyi Fu
Citations: 3,585
h-index: 31
Jiaxin Ding
Jiaxin Ding
Citations: 148
h-index: 7
Xiaoying Gan
Xiaoying Gan
Citations: 49
h-index: 5
Lei Zhou
Lei Zhou
Citations: 0
h-index: 0
Xinbing Wang
Xinbing Wang
Citations: 298
h-index: 10
Cheng Zhou
Cheng Zhou
Citations: 1,241
h-index: 18

대규모 언어 모델(LLM)은 텍스트 속성 그래프(TAG) 이해에 있어 유망한 능력을 보여주었습니다. 최근 연구들은 주로 수작업 프롬프트를 통해 그래프 구조를 언어화하고, 대상 노드와 그 이웃 문맥을 LLM에 입력하는 데 초점을 맞추고 있습니다. 그러나 문맥 윈도우의 제약으로 인해 기존 방법들은 주로 노드나 엣지를 무작위로 삭제하는 방식의 무작위 샘플링에 의존하는데, 이는 필연적으로 노이즈를 유발하고 추론의 불안정성을 초래합니다. 우리는 그래프가 본질적으로 풍부한 구조적 및 의미론적 정보를 포함하고 있으며, 이를 효과적으로 활용하면 LLM 추론 성능을 잠재적으로 향상시킬 수 있다고 주장합니다. 이를 위해 우리는 그래프 동질성 활용을 중심으로 하는 프레임워크인 'LLM을 위한 동질성 인식 구조 및 의미적 압축(HS2C)'을 제안합니다. 구조적으로는 구조적 엔트로피 최소화 원칙에 따라 그래프의 본질적인 위상을 파악하는 전역적 계층 분할을 수행합니다. 이 분할은 확률적 연결 노이즈를 제거하면서 자연스럽게 응집된 동질적 커뮤니티를 식별합니다. 의미적으로는 식별된 구조적 동질성을 LLM에 전달하여, 사전 정의된 커뮤니티 유형에 따라 차별화된 의미적 집계를 수행할 수 있도록 합니다. 이 과정은 중복되는 배경 문맥을 간결한 커뮤니티 수준의 합의로 압축하며, 대상 노드와 정렬된 의미적으로 동질적인 정보를 선별적으로 보존합니다. 다양한 크기와 계열의 LLM에 걸친 10개의 노드 수준 벤치마크에 대한 광범위한 실험 결과, 구조적 및 의미적으로 압축된 입력을 LLM에 제공함으로써 HS2C가 압축률과 다운스트림 추론 정확도를 동시에 향상시킴을 입증하였으며, 이는 그 우수성과 확장성을 보여줍니다. 또한 7개의 다양한 그래프 수준 벤치마크로의 확장은 HS2C의 과제 일반화 능력을 더욱 공고히 합니다.

Original Abstract

Large language models (LLMs) have demonstrated promising capabilities in Text-Attributed Graph (TAG) understanding. Recent studies typically focus on verbalizing the graph structures via handcrafted prompts, feeding the target node and its neighborhood context into LLMs. However, constrained by the context window, existing methods mainly resort to random sampling, often implemented via dropping node/edge randomly, which inevitably introduces noise and cause reasoning instability. We argue that graphs inherently contain rich structural and semantic information, and that their effective exploitation can unlock potential gains in LLMs reasoning performance. To this end, we propose Homophily-aware Structural and Semantic Compression for LLMs (HS2C), a framework centered on exploiting graph homophily. Structurally, guided by the principle of Structural Entropy minimization, we perform a global hierarchical partition that decodes the graph's essential topology. This partition identifies naturally cohesive, homophilic communities, while discarding stochastic connectivity noise. Semantically, we deliver the detected structural homophily to the LLM, empowering it to perform differentiated semantic aggregation based on predefined community type. This process compresses redundant background contexts into concise community-level consensus, selectively preserving semantically homophilic information aligned with the target nodes. Extensive experiments on 10 node-level benchmarks across LLMs of varying sizes and families demonstrate that, by feeding LLMs with structurally and semantically compressed inputs, HS2C simultaneously enhances the compression rate and downstream inference accuracy, validating its superiority and scalability. Extensions to 7 diverse graph-level benchmarks further consolidate HS2C's task generalizability.

0 Citations
0 Influential
15.5 Altmetric
77.5 Score

AI Analysis

Korean Summary

이 논문은 텍스트 속성 그래프(TAG)를 대규모 언어 모델(LLM)에 입력할 때 발생하는 컨텍스트 윈도우 제한과 무작위 샘플링으로 인한 노이즈 문제를 해결하기 위해 'HS2C(Homophily-aware Structural and Semantic Compression)'라는 프레임워크를 제안합니다. HS2C는 구조적 엔트로피(Structural Entropy) 최소화 원리를 활용하여 그래프를 전역적인 계층적 커뮤니티로 분할하고, 발견된 동질적 구조 내에서 배경 노드들의 텍스트 정보를 LLM을 통해 의미론적으로 요약 및 압축합니다. 실험 결과, 이 방식은 OGBN-ArXiv 데이터셋에서 약 95%의 그래프 규모 압축률을 달성하면서도 기존 방식 대비 추론 정확도를 3.06%~4.92% 향상시키는 등 압축 효율성과 추론 성능을 동시에 개선함을 입증했습니다.

Key Innovations

  • 구조적 엔트로피(Structural Entropy) 최소화 원리에 기반한 전역적이고 계층적인 그래프 분할 알고리즘 적용
  • 그래프의 동질성(Homophily) 구조를 명시적으로 탐지하고 유형별(Pure, Specific, Common-Shared, Mixed)로 구분하여 처리
  • 커뮤니티 내 배경 노드(Background nodes)들의 텍스트를 LLM을 이용해 의미론적으로 통합(Aggregation)하여 입력 크기를 줄이는 CSA 모듈
  • 불완전한 그래프 토폴로지를 보완하기 위한 유사도 기반의 그래프 구조 강화(GSE) 기법 도입

Learning & Inference Impact

이 기술은 LLM의 추론 과정에서 입력 데이터의 크기(토큰 수)를 획기적으로 줄여주어 컨텍스트 윈도우의 제약을 극복하게 하고 연산 효율성을 높입니다. 무작위 샘플링 대신 동질성에 기반하여 의미적으로 연관된 정보만을 압축하여 제공함으로써, LLM이 불필요한 노이즈에 방해받지 않고 더 정확하고 일관된 추론을 할 수 있도록 돕습니다. 결과적으로 대규모 그래프 데이터에 대해서도 LLM의 미세 조정(Fine-tuning) 없이 Zero-shot 성능을 크게 향상시킵니다.

Technical Difficulty

고급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!