97人妻一区二区精品免费,好男人社区www在线官网,办公室娇喘的短裙老师在线视频,亚州精品久久久久久久久

咨詢電話:021-58952328
Nat. Biotechnol. | 神經網絡生成酶的計算評分和實驗評估2024-05-14

分享一篇發表在Nature Biotechnology上的文章,文章標題“Computational scoring and experimental evaluation of enzymes generated by neural networks”,文章的通訊作者是來自微軟研究院的Kevin K. Yang和查爾姆斯理工大學的Aleksej Zelezniak。其中Kevin K. Yang主要從事機器學習蛋白質工程方面的研究,Aleksej Zelezniak主要研究興趣是基于計算預測的系統生物學研究。

1
蛋白質序列生成模型是一種通過擬合自然界中蛋白質序列分布、不斷采樣獲得新序列的生成模型。然而,預測生成的蛋白質能否折疊并發揮相應功能仍具有挑戰性。其中主要困難在于,蛋白質序列生成模型通常以生成序列和自然界已有序列的比對分數(相似性)作為評估指標。而這種基于序列同一性、對每個位置賦予相同權重的指標有利于捕獲全局的、一般的序列特性,但是卻不利于捕獲某些特定位置的上位效應。這導致模型對于致病性錯義突變(表達水平或者活性不良)不夠敏感。因此,一種可行的思路是聯合其它類型的指標預測生成序列的活性。比如,將蛋白質語言模型的評估結果考慮在內,可能增強模型對于序列中某些缺陷的識別能力;引入Rosetta打分或者AlphaFold2的殘基置信度打分,則有望增強模型對于蛋白質能否折疊至穩定結構的判斷能力。基于此,本文作者開發并實驗驗證了蛋白質序列選擇的復合指標(composite metrics for protein sequence selection,?COMPSS),用于挑選具有酶活性的蛋白質序列。
COMPSS包含如下三類指標:基于單序列的指標、基于多序列比對的指標、基于結構的指標。作者設計的實驗框架如下:針對某一蛋白質功能,首先使用簡單的評估指標(比如基于單序列的相似性)過濾序列并加以實驗驗證;根據實驗驗證給出的結果進一步訓練模型、優化COMPSS;最后實驗驗證COMPSS的表現。
2
在本文中,作者針對蘋果酸脫氫酶(MDH)和銅超氧化物歧化酶(CuSOD)來優化COMPSS的指標。在第一輪簡單過濾的實驗中,作者從超過30000條生成序列中挑選了144條序列用于實驗驗證。這些序列與天然序列的相似度在70%到80%之間。結果表明,大約19%具有活性。在第二輪訓練中,作者引入了新的指標(ESM-1v和ProteinMPNN等等)并在額外加入校準后的數據重新訓練了序列生成模型。其中,60%以上的蛋白質呈現出酶活性。在第三輪的驗證環節,COMPSS表現出對活性蛋白質的富集能力。
3?
作者最后指出,COMPSS?的核心思想是通過生物學驅動的質量檢查和蛋白質語言模型評分進行預過濾來選擇序列,最后利用相對耗時的結構預測進行最終評分。作者不建議在不考慮生物學復雜性的情況下盲目地將COMPSS應用于新的蛋白質家族。
本文作者:ZF
責任編輯:FTY
文章鏈接:https://www.nature.com/articles/s41587-024-02214-2
原文引用:DOI:?10.1038/s41587-024-02214-2
主站蜘蛛池模板: 珠海市| 秭归县| 农安县| 清原| 江安县| 奇台县| 台南县| 扎兰屯市| 东兰县| 拉孜县| 高雄市| 兴城市| 绥棱县| 进贤县| 福鼎市| 吴堡县| 靖远县| 昆山市| 渝中区| 稻城县| 青神县| 大渡口区| 仲巴县| 汝州市| 郓城县| 乐安县| 玉环县| 台安县| 罗城| 清水河县| 肇源县| 武川县| 新建县| 聂拉木县| 昂仁县| 仙居县| 屏山县| 基隆市| 敦煌市| 遂平县| 永清县|