分享一篇發(fā)表在Nature Communications上的文章,文章標題“Rapid and accurate prediction of protein homo-oligomer symmetry using Seq2Symm”,文章的通訊作者是來自首爾大學的Minkyung Baek教授和微軟研究實驗室的Meghana Kshirsagar研究員。其中Baek課題組主要研究基于機器學習的生物分子建模。

大部分蛋白質需要組裝形成多聚體以行使其生物學功能。同源多聚體中相同亞基的排列賦予了蛋白質對稱性,最常見的包括環(huán)狀對稱性Cn和二面體對稱性Dn。但是,預測給定單鏈蛋白質所歸屬的對稱性仍是一個不小的挑戰(zhàn)。盡管使用AlphaFold和RoseTTAFold可以很大程度完成此任務,但是它們在計算過程中依賴高質量MSA,并需要對每個可能的鏈的數(shù)量進行逐一預測和評分;這在計算效率上十分低下。本文,作者通過對蛋白質基礎模型(protein foundation models,pFMs)的微調(diào),訓練得到一個直接預測寡聚體對稱性的模型Seq2Symm,并展示了該模型與AlphaFold-Multimer的結合使用可以實現(xiàn)高效的同源寡聚體結構預測。

作者通過微調(diào)模型最后幾層的參數(shù)、添加分類模塊構建Seq2Symm。以蛋白質序列或多序列比對(MSA)為輸入,Seq2Symm可以直接給出對稱性預測。作者比較了不同pFMs(包括RoseTTAFold2、ESM2、ESM-MSA)、不同訓練策略(是否微調(diào)、是否蒸餾等)的結果,最終得到以ESM2微調(diào)的模型,即Seq2Symm。測試集上AUC-PR值為0.47,高于基于模板的方法0.24;同時該模型與AlphaFold-Multimer結合使用,顯著降低了多聚物結構的預測時間。

考慮到Seq2Symm出色的預測表現(xiàn),作者使用此模型預測了五個蛋白質組以及來自UniRef和宏基因組的350 M條序列。其中,五個蛋白質組的預測結果與此前報道的預測結果(文獻:An atlas of protein homo-oligomerization across domains of life)分布基本一致;且對稱性在簡單生物體和復雜生物體中的分布基本一致。

總的來說,本文通過微調(diào)ESM2模型開發(fā)了以單序列為輸入、以蛋白質寡聚體對稱性為輸出的Seq2Symm模型。
本文作者:ZF
責任編輯:WYQ
DOI:10.1038/s41467-025-57148-3
原文鏈接:https://doi.org/10.1038/s41467-025-57148-3