2603.18571v1 Mar 19, 2026 cs.AI

CAPSUL: 세포 내 소기관 위치 예측을 위한 종합적인 인간 단백질 벤치마크

CAPSUL: A Comprehensive Human Protein Benchmark for Subcellular Localization

Wenjie Wang
Wenjie Wang
Citations: 3,997
h-index: 29
Fuli Feng
Fuli Feng
Citations: 1,097
h-index: 18
Fengbin Zhu
Fengbin Zhu
National University of Singapore
Citations: 1,191
h-index: 12
Yicheng Hu
Yicheng Hu
Citations: 64
h-index: 2
Xinyu Lin
Xinyu Lin
Citations: 968
h-index: 14
Shulin Li
Shulin Li
Citations: 38
h-index: 2

세포 내 소기관 위치는 약물 표적 발굴 및 기능 주석 작업에 있어 중요한 생물학적 과제입니다. 세포 내 소기관 위치는 단백질 구조와 밀접하게 관련되어 있다는 것이 생물학적으로 알려져 있지만, 상세한 세포 내 소기관 위치 정보와 함께 종합적인 3차원 구조 정보를 제공하는 기존 데이터셋은 존재하지 않아, 유망한 구조 기반 모델을 이 작업에 적용하는 데 심각한 제약을 초래합니다. 이러한 격차를 해소하기 위해, 저희는 세포 내 소기관 위치 예측을 위한 종합적인 인간 단백질 벤치마크인 $\mathbf{CAPSUL}$을 소개합니다. $\mathbf{CAPSUL}$은 다양한 3차원 구조 표현과 세분화된 세포 내 소기관 위치 정보를 통합한 데이터셋을 특징으로 하며, 이 데이터셋은 해당 분야 전문가에 의해 신중하게 큐레이션되었습니다. 저희는 다양한 최첨단 서열 기반 및 구조 기반 모델을 사용하여 이 벤치마크를 평가했으며, 이 결과는 이 작업에서 구조적 특징을 포함하는 것이 얼마나 중요한지를 보여줍니다. 또한, 구조 기반 방법 연구를 촉진하기 위해 가중치 조정 및 단일 레이블 분류 전략을 탐색했습니다. 마지막으로, 저희는 골지체를 사례 연구로 사용하여 구조 기반 방법의 강력한 해석력을 보여주었습니다. 저희는 어텐션 메커니즘을 통해 중요한 위치 패턴인 $\alpha$-helix를 발견했으며, 이는 직관적인 생물학적 해석과의 간극을 좁히고 세포 생물학 분야의 데이터 기반 발견을 위한 길을 열어줄 수 있는 잠재력을 보여줍니다.

Original Abstract

Subcellular localization is a crucial biological task for drug target identification and function annotation. Although it has been biologically realized that subcellular localization is closely associated with protein structure, no existing dataset offers comprehensive 3D structural information with detailed subcellular localization annotations, thus severely hindering the application of promising structure-based models on this task. To address this gap, we introduce a new benchmark called $\mathbf{CAPSUL}$, a $\mathbf{C}$omprehensive hum$\mathbf{A}$n $\mathbf{P}$rotein benchmark for $\mathbf{SU}$bcellular $\mathbf{L}$ocalization. It features a dataset that integrates diverse 3D structural representations with fine-grained subcellular localization annotations carefully curated by domain experts. We evaluate this benchmark using a variety of state-of-the-art sequence-based and structure-based models, showcasing the importance of involving structural features in this task. Furthermore, we explore reweighting and single-label classification strategies to facilitate future investigation on structure-based methods for this task. Lastly, we showcase the powerful interpretability of structure-based methods through a case study on the Golgi apparatus, where we discover a decisive localization pattern $α$-helix from attention mechanisms, demonstrating the potential for bridging the gap with intuitive biological interpretability and paving the way for data-driven discoveries in cell biology.

0 Citations
0 Influential
14.5 Altmetric
72.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!