효율적인 다중 모드 그래프 기반 모델 개발을 위한 접근 방식: 분할 정복 전략
Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach
그래프 기반 모델(GFM)은 다양한 분야에서 뛰어난 성능을 보여주었지만, 주로 텍스트 속성을 가진 그래프(TAG)에 초점을 맞추고 있으며, 다중 모드 속성을 가진 그래프(MAG)는 상대적으로 연구가 부족합니다. 다중 모드 그래프 기반 모델(MGFM)을 개발하면 MAG에 포함된 풍부한 다중 모드 정보를 활용하여 더 광범위한 유형의 후속 작업에 적용할 수 있습니다. 최근의 MGFM은 다양한 모드 정보를 통합하지만, 우리의 실험적 연구 결과, 기존 MGFM은 다음과 같은 두 가지 근본적인 한계를 가지고 있습니다. (1) 단순한 집계를 넘어 복잡한 교차 모드 의미를 파악하는 데 필수적인 모드 간 상호 작용을 명시적으로 모델링하지 못하고, (2) 뚜렷하게 다른 모드 공간 간의 상당한 의미 차이를 해소하는 데 중요한 모드 정렬이 최적이 아닙니다. 이러한 문제를 해결하기 위해, 우리는 분할 정복 전략을 사용하여 모드 간 상호 작용과 정렬을 다양한 수준으로 분리하는 새로운 프레임워크인 PLANET(graPh topoLogy-aware modAlity iNteraction and alignmEnT)을 제안합니다. 임베딩 수준에서, (1) 임베딩 단위 도메인 게이팅(EDG)은 토폴로지 기반의 교차 모드 컨텍스트를 적응적으로 통합하여 로컬 의미를 풍부하게 하고, 모드 간 상호 작용을 달성합니다. 노드 수준에서, (2) 노드 단위 이산화 검색(NDR)은 이산화된 의미 표현 공간(DSRS)을 구축하여 모드 간 격차를 해소하고, 글로벌 모드 정렬을 보장합니다. 광범위한 실험 결과, PLANET은 다양한 그래프 중심 및 다중 모드 생성 작업에서 최첨단 모델보다 훨씬 뛰어난 성능을 보이는 것으로 나타났습니다.
Graph Foundation Models (GFMs) have achieved remarkable success in generalizing across diverse domains. However, they mainly focus on Text-Attributed Graphs (TAGs), leaving Multimodal-Attributed Graphs (MAGs) largely untapped. Developing Multimodal Graph Foundation Models (MGFMs) allows for leveraging the rich multimodal information in MAGs, and extends applicability to broader types of downstream tasks. While recent MGFMs integrate diverse modality information, our empirical investigation reveals two fundamental limitations of existing MGFMs: (1)they fail to explicitly model modality interaction, essential for capturing intricate cross-modal semantics beyond simple aggregation, and (2)they exhibit sub-optimal modality alignment, which is critical for bridging the significant semantic disparity between distinct modal spaces. To address these challenges, we propose PLANET (graPh topoLogy-aware modAlity iNteraction and alignmEnT), a novel framework employing a Divide-and-Conquer strategy to decouple modality interaction and alignment across distinct granularities. At the embedding granularity, (1)Embedding-wise Domain Gating (EDG) performs local semantic enrichment by adaptively infusing topology-aware cross-modal context, achieving modality interaction. At the node granularity, (2)Node-wise Discretization Retrieval (NDR) ensures global modality alignment by constructing a Discretized Semantic Representation Space (DSRS) to bridge modality gaps. Extensive experiments demonstrate that PLANET significantly outperforms state-of-the-art baselines across diverse graph-centric and multimodal generative tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.