分享一篇發(fā)表在Nature Communications上的文章,文章標(biāo)題“Rapid and accurate prediction of protein homo-oligomer symmetry using Seq2Symm”,文章的通訊作者是來自首爾大學(xué)的Minkyung Baek教授和微軟研究實(shí)驗(yàn)室的Meghana Kshirsagar研究員。其中Baek課題組主要研究基于機(jī)器學(xué)習(xí)的生物分子建模。

大部分蛋白質(zhì)需要組裝形成多聚體以行使其生物學(xué)功能。同源多聚體中相同亞基的排列賦予了蛋白質(zhì)對(duì)稱性,最常見的包括環(huán)狀對(duì)稱性Cn和二面體對(duì)稱性Dn。但是,預(yù)測給定單鏈蛋白質(zhì)所歸屬的對(duì)稱性仍是一個(gè)不小的挑戰(zhàn)。盡管使用AlphaFold和RoseTTAFold可以很大程度完成此任務(wù),但是它們?cè)谟?jì)算過程中依賴高質(zhì)量MSA,并需要對(duì)每個(gè)可能的鏈的數(shù)量進(jìn)行逐一預(yù)測和評(píng)分;這在計(jì)算效率上十分低下。本文,作者通過對(duì)蛋白質(zhì)基礎(chǔ)模型(protein foundation models,pFMs)的微調(diào),訓(xùn)練得到一個(gè)直接預(yù)測寡聚體對(duì)稱性的模型Seq2Symm,并展示了該模型與AlphaFold-Multimer的結(jié)合使用可以實(shí)現(xiàn)高效的同源寡聚體結(jié)構(gòu)預(yù)測。

作者通過微調(diào)模型最后幾層的參數(shù)、添加分類模塊構(gòu)建Seq2Symm。以蛋白質(zhì)序列或多序列比對(duì)(MSA)為輸入,Seq2Symm可以直接給出對(duì)稱性預(yù)測。作者比較了不同pFMs(包括RoseTTAFold2、ESM2、ESM-MSA)、不同訓(xùn)練策略(是否微調(diào)、是否蒸餾等)的結(jié)果,最終得到以ESM2微調(diào)的模型,即Seq2Symm。測試集上AUC-PR值為0.47,高于基于模板的方法0.24;同時(shí)該模型與AlphaFold-Multimer結(jié)合使用,顯著降低了多聚物結(jié)構(gòu)的預(yù)測時(shí)間。

考慮到Seq2Symm出色的預(yù)測表現(xiàn),作者使用此模型預(yù)測了五個(gè)蛋白質(zhì)組以及來自UniRef和宏基因組的350 M條序列。其中,五個(gè)蛋白質(zhì)組的預(yù)測結(jié)果與此前報(bào)道的預(yù)測結(jié)果(文獻(xiàn):An atlas of protein homo-oligomerization across domains of life)分布基本一致;且對(duì)稱性在簡單生物體和復(fù)雜生物體中的分布基本一致。

總的來說,本文通過微調(diào)ESM2模型開發(fā)了以單序列為輸入、以蛋白質(zhì)寡聚體對(duì)稱性為輸出的Seq2Symm模型。
本文作者:ZF
責(zé)任編輯:WYQ
DOI:10.1038/s41467-025-57148-3
原文鏈接:https://doi.org/10.1038/s41467-025-57148-3