使用CARBonAra進行序列預(yù)測(示意圖)。圖片來源:瑞士洛桑聯(lián)邦理工學(xué)院
科技日報記者 張佳欣
瑞士洛桑聯(lián)邦理工學(xué)院開發(fā)了一種名為CARBonAra的新型人工智能(AI)驅(qū)動模型。該模型可以根據(jù)不同分子環(huán)境所施加限制的主鏈支架預(yù)測蛋白質(zhì)序列,有望在蛋白質(zhì)工程及包括醫(yī)學(xué)和生物技術(shù)在內(nèi)的多個領(lǐng)域帶來重大進展。這一成果發(fā)表在最新一期《自然·通訊》雜志上。
CARBonAra是在一個包含約370000個亞基的數(shù)據(jù)集上進行訓(xùn)練的。它還從蛋白質(zhì)數(shù)據(jù)庫中額外選取了100000個亞基用于驗證,70000個亞基用于測試。
CARBonAra建立在該團隊開發(fā)的蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)換器框架的基礎(chǔ)上。它使用了幾何轉(zhuǎn)換器,是一種深度學(xué)習(xí)模型,可以處理點之間的空間關(guān)系(如原子坐標),以學(xué)習(xí)和預(yù)測復(fù)雜的結(jié)構(gòu)。該模型突出特點是“上下文”感知能力,這在提高序列恢復(fù)率方面尤為明顯。
當CARBonAra包含分子“上下文”,如蛋白質(zhì)與其他蛋白質(zhì)、核酸、脂質(zhì)或離子的界面時,其恢復(fù)率顯著提高。
該模型不僅在合成基準測試中表現(xiàn)出色,還經(jīng)過了實驗驗證,其靈活性和準確性為蛋白質(zhì)工程開辟了新的途徑,增強了未來藥物發(fā)現(xiàn)的能力。CARBonAra在酶工程方面的成功也展示了其在工業(yè)應(yīng)用中的潛力。