분자 이해를 위한 그래프-LLM 정렬에서 엔트로피 기반 동적 토큰 활용
Entropy-Guided Dynamic Tokens for Graph-LLM Alignment in Molecular Understanding
분자 이해는 과학적 발견과 같은 분야 발전에 매우 중요하지만, 대규모 언어 모델(LLM)은 분자 그래프를 효과적으로 이해하는 데 어려움을 겪습니다. 기존의 그래프-LLM 연결 방식은 주로 시각 작업에 설계된 Q-Former 스타일의 연결 방식을 사용하며, 고정된 길이의 정적 토큰을 활용합니다. 이러한 방식은 입체 화학적 구조와 부분 구조적 맥락을 고려하지 못하며, 일반적으로 LLM의 핵심 구조를 미세 조정해야 하므로 효율성과 일반화 성능이 제한됩니다. 본 연구에서는 엔트로피를 기반으로 하는 동적 토큰 변환기인 EDT-Former를 제안합니다. EDT-Former는 분자 그래프에서 중요한 부분을 나타내는 토큰을 생성하여, 분자 그래프 이해를 위해 지역적 및 전역적 구조적 특징을 모두 보존합니다. EDT-Former는 기존 방식과 달리, LLM의 핵심 구조를 조정하지 않고 (임베딩 레이어 제외) 그래프 인코더와 LLM을 연결할 수 있도록 합니다. 이를 통해 계산 효율적인 미세 조정을 가능하게 하며, MoleculeQA, 분자 지향형 명령, 그리고 속성 예측 벤치마크(TDC, MoleculeNet)에서 최고 수준의 성능을 달성하여, 확장 가능하고 일반화 가능한 다중 모달 분자 이해에 효과적임을 입증합니다.
Molecular understanding is central to advancing areas such as scientific discovery, yet Large Language Models (LLMs) struggle to understand molecular graphs effectively. Existing graph-LLM bridges often adapt the Q-Former-style connector with fixed-length static tokens, which is originally designed for vision tasks. These designs overlook stereochemistry and substructural context and typically require costly LLM-backbone fine-tuning, limiting efficiency and generalization. We introduce EDT-Former, an Entropy-guided Dynamic Token Transformer that generates tokens aligned with informative molecular patches, thereby preserving both local and global structural features for molecular graph understanding. Beyond prior approaches, EDT-Former enables alignment between frozen graph encoders and LLMs without tuning the LLM backbone (excluding the embedding layer), resulting in computationally efficient finetuning, and achieves stateof-the-art results on MoleculeQA, Molecule-oriented Mol-Instructions, and property prediction benchmarks (TDC, MoleculeNet), underscoring its effectiveness for scalable and generalizable multimodal molecular understanding
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.