分享一篇發表在Nature Methods上的文章,標題為“Predicting glycan structure from tandem mass spectrometry via deep learning”,文章的通訊作者是來自哥德堡大學的Daniel Bojar教授,其課題組致力于聚糖方面的研究。
聚糖修飾是最為豐富的翻譯后修飾,然而確定聚糖的結構卻充滿挑戰性。同一分子質量可能對應不同拓撲結構的聚糖。因此在傳統的鑒定流程下,研究人員通常需要分離結構異構體,隨后使用MS將其碎裂成更小的亞結構加以鑒定。這種流程費時費力,難以大規模進行。本文,作者利用大規模的串聯譜圖數據集,基于深度學習算法建立了CandyCrunch模型,并實現了90%的聚糖結構預測準確性。
作者從超過2000個糖組學實驗中收集得到近50萬張帶有聚糖注釋的LC-MS/MS譜圖,聚糖類型涵蓋了主要的真核生物聚糖修飾類型。作者引入卷積神經網絡以學習MS/MS中的碎裂模式和強度比。它以MS/MS譜圖、保留時間、母離子m/z和一些其它實驗參數作為輸入,以聚糖的預測排名作為輸出(包含聚糖的質量和拓撲結構)。為方便使用,作者建立了工作管道以支持原始文件作為輸入(如.mzML文件)。
在評估過程中,CandyCrunch能夠達到超過90%的拓撲結構預測準確性,并在各種聚糖類型中表現相當。聚類結果表明,模型對聚糖對的預測表示暗示了它們之間的結構相似性。需要指出的是,CandyCrunch本身是一個多分類模型,因此對應零樣本預測(預測訓練數據集中不存在的聚糖結構)是不可行的。最后,作者借助CandyCrunch開發得到CandyCrumbs用以指認不同離子峰對應的聚糖亞結構。
本文作者:ZF
責任編輯:FTY
文章鏈接:https://doi.org/10.1038/s41592-024-02314-6
原文引用:DOI:?10.1038/s41592-024-02314-6