다중 스케일 구조 생성을 통한 단백질 자기 회귀 모델링
Protein Autoregressive Modeling via Multiscale Structure Generation
본 논문에서는 단백질 자기 회귀 모델링(PAR)을 제시합니다. PAR은 단백질 백본 생성에 대한 최초의 다중 스케일 자기 회귀 프레임워크로서, 거시적인 단계에서부터 미세한 단계에 이르기까지 다음 스케일의 예측을 통해 작동합니다. PAR은 단백질의 계층적 특성을 활용하여, 조각가가 조각상을 만드는 것과 유사하게, 거친 토폴로지를 형성하고 스케일에 따라 구조적 세부 사항을 개선합니다. 이를 위해 PAR은 세 가지 핵심 구성 요소로 이루어져 있습니다. (i) 학습 과정에서 단백질 구조를 여러 스케일로 표현하는 다중 스케일 다운샘플링 연산, (ii) 다중 스케일 정보를 인코딩하고 구조 생성을 안내하는 조건부 임베딩을 생성하는 자기 회귀 트랜스포머, (iii) 이러한 임베딩에 조건화되어 백본 원자를 생성하는 플로우 기반 백본 디코더입니다. 또한, 자기 회귀 모델은 학습과 생성 과정의 불일치로 인해 발생하는 노출 편향(exposure bias) 문제로 인해 구조 생성 품질이 저하되는 경향이 있습니다. 우리는 노이즈 컨텍스트 학습과 스케줄링 샘플링을 적용하여 이 문제를 효과적으로 완화하고, 견고한 백본 생성을 가능하게 합니다. 주목할 만한 점은, PAR이 강력한 제로샷 일반화 능력을 보여주며, 미세 조정 없이도 유연한 인간의 프롬프트 기반 조건부 생성 및 모티프 스캐폴딩을 지원한다는 것입니다. 무조건적 생성 벤치마크에서, PAR은 단백질 분포를 효과적으로 학습하고 고품질의 백본을 생성하며, 우수한 확장성을 보입니다. 이러한 특성들을 종합적으로 고려할 때, PAR은 단백질 구조 생성에 대한 유망한 프레임워크로 자리매김할 수 있습니다.
We present protein autoregressive modeling (PAR), the first multi-scale autoregressive framework for protein backbone generation via coarse-to-fine next-scale prediction. Using the hierarchical nature of proteins, PAR generates structures that mimic sculpting a statue, forming a coarse topology and refining structural details over scales. To achieve this, PAR consists of three key components: (i) multi-scale downsampling operations that represent protein structures across multiple scales during training; (ii) an autoregressive transformer that encodes multi-scale information and produces conditional embeddings to guide structure generation; (iii) a flow-based backbone decoder that generates backbone atoms conditioned on these embeddings. Moreover, autoregressive models suffer from exposure bias, caused by the training and the generation procedure mismatch, and substantially degrades structure generation quality. We effectively alleviate this issue by adopting noisy context learning and scheduled sampling, enabling robust backbone generation. Notably, PAR exhibits strong zero-shot generalization, supporting flexible human-prompted conditional generation and motif scaffolding without requiring fine-tuning. On the unconditional generation benchmark, PAR effectively learns protein distributions and produces backbones of high design quality, and exhibits favorable scaling behavior. Together, these properties establish PAR as a promising framework for protein structure generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.