推薦一篇發表在ACS Cent. Sci.上的論文,題目為“Deep Learning-Driven Library Design for the De Novo Discovery of Bioactive Thiopeptides”,本文的通訊作者是來自東京大學化學系同課題組的Yuki Goto教授、Hiroaki Suga教授以及Alexander A.Vinogradov,Yuki Goto教授和Hiroaki Suga教授主要研究方向為遺傳密碼子重編程以及非標肽的核糖體合成。

核糖體合成酶和翻譯后修飾肽(Ribosomally synthesized and post-translationally modified peptides,RiPP)是一類具有結構和功能多樣性的天然產物。RiPP生物合成酶具有廣泛的底物耐受性,這為RiPP工程提供了許多有效的策略。然而,盡管RiPP生物合成酶具有寬松的底物特異性,它的底物偏好性是難以確定的。因此,在設計RiPP前體的組合文庫時,需要考慮到化合物多樣性以及底物適應性。然而,要在二者之間取得平衡仍具有挑戰性。

Lactazole A是乳酸鏈霉菌(Streptomyces lactacystinaeus)的一種硫肽,有五種酶LazBCDEF 參與其生物合成。在這篇文章中,作者采用深度學習模型以實現基于LazA的mRNA文庫的設計。首先,作者構建隨機的LazA文庫,采用體外翻譯(FIT)和mRNA展示,將合成的多肽通過puromycin與mRNA相連,并將Nα-生物素化的Phe作為N末端,使用Laz酶處理以及HA純化后,完全成熟的底物將會失去N末端的生物素標簽。然后通過鏈霉素和素磁珠進行富集,其中線型形式的LazA突變體被磁珠保留,而環化為硫肽的LazA突變體則保留在溶液中。其中完全修飾的硫肽的未結合部分和線型形式的肽的結合部分在每一輪中都被回收和擴增,共進行六輪,以獲得可以環化為硫肽的LazA突變體以及線型形式的LazA突變體序列,并將它們作為數據集來訓練可以區分LazA突變體底物適應性的卷積神經網絡(Convolutional neural network,CNN)。最終模型可以達到0.963的準確性并且通過LC-MS驗證了經過訓練的模型對于LazA突變體肽的底物適應性的估算是可靠的。

接下來,作者隨機生成了10^4條多肽,并使用該模型計算了它們的平均修飾效率。首先針對11聚體文庫進行設計,通過采用GCG(Ala)替換每個NNK簡并密碼子來進行Ala掃描,發現位置1和11對預測LazA突變體成熟效率的影響最大,通過評估位置1和11中已識別密碼子的組合,結果表明dsk-(nnk)9-nnu是最佳的設計。對于較短的文庫,結果表明dbk-(nnk)n (n = 5?9) 是得分最高的設計。

最后,作者針對IRAK4(先天炎癥信號通路中的關鍵激酶)和TLR10(與先天免疫有關的孤兒受體)這兩種蛋白測試了它們與硫肽親和的能力,通過pulldown(+)和pulldown (?)實驗篩選得到了靶向IRAK4和TLR10的硫肽。實驗表明發現針對IRAK4的最佳化合物的KD值高達1.3 nM,針對TLR10的最佳化合物KD值高達300 nM。IRAK4 靶向化合物還在體外能夠以個位數的μM濃度抑制激酶,可以有效內化到HEK293H細胞中,并抑制細胞中NF-kB介導的信號傳導。
總而言之,作者所開發的方法簡化了具有重新設計的生物活性和有利藥理學特性的非天然 RiPP 的發現。