版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

中科院羅小舟團隊提出 UniKP 框架,大模型 + 機器學(xué)習高精度預(yù)測酶動力學(xué)參數(shù)

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

作者:李寶珠

編輯:三羊

中國科學(xué)院深圳先進技術(shù)研究院羅小舟團隊提出了,基于酶動力學(xué)參數(shù)預(yù)測框架 (UniKP),實現(xiàn)多種不同的酶動力學(xué)參數(shù)的預(yù)測。

眾所周知,生物體內(nèi)的新陳代謝是通過各種各樣的化學(xué)反應(yīng)來實現(xiàn)的。這些反應(yīng)如果在體外進行,通常需要在高溫、高壓、強酸、強堿等劇烈條件下才能發(fā)生。

但在生物體內(nèi),新陳代謝反應(yīng)卻可以在極為溫和的條件下高效進行,這主要歸功于重要的有機催化劑——酶。

作為貫穿高中生物學(xué)科的高分知識點,酶的特性或許已經(jīng)烙印在大家記憶深處——催化效率高、專一性強、作用條件溫和等。更重要的是,酶與很多人體疾病密切相關(guān),還可以用于診斷與治療。一直以來,人們在深入研究酶分子結(jié)構(gòu)與功能的同時,也在持續(xù)探究酶促反應(yīng)的影響因素。

研究酶促反應(yīng)速率以及各種因素對酶促反應(yīng)速率影響機制的科學(xué),被稱為「酶促反應(yīng)動力學(xué)」,在研究中,酶在特定反應(yīng)中的催化效率通常通過酶動力學(xué)參數(shù) (enzyme kinetic parameters) 來衡量。

酶促反應(yīng)動力學(xué)參數(shù)包括了酶周轉(zhuǎn)數(shù) kcat、米氏常數(shù) Km 和催化效率 kcat / Km 等,目前主要依賴濕實驗來進行參數(shù)測量,但這一過程耗時且成本高,使得實驗測得的酶動力學(xué)參數(shù)數(shù)據(jù)庫規(guī)模相對較小,而數(shù)據(jù)的稀缺則會限制下游系統(tǒng)生物學(xué)和代謝工程領(lǐng)域的發(fā)展。

針對于此,中國科學(xué)院深圳先進技術(shù)研究院合成所羅小舟團隊提出了,基于預(yù)訓(xùn)練大語言模型和機器學(xué)習模型的酶動力學(xué)參數(shù)預(yù)測框架 (enzyme kinetic parameters prediction framework,UniKP)。

該框架僅通過給定酶的氨基酸序列和底物的結(jié)構(gòu)信息,就可以實現(xiàn)多種不同的酶動力學(xué)參數(shù)的預(yù)測。此外,研究團隊進一步將環(huán)境因素納入考量,提出了基于 UniKP 的雙層框架 EF-UniKP,實現(xiàn)了更準確地酶動力學(xué)參數(shù)的預(yù)測。

該研究成果已發(fā)表于 Nature Communications

論文鏈接:

https://www.nature.com/articles/s41467-023-44113-1

GitHub鏈接:

https://github.com/Luo-SynBioLab/UniKP

關(guān)注公眾號,回復(fù)「UniKP」下載完整論文

代表性數(shù)據(jù)集驗證模型價值

研究團隊選擇了 4 個具有代表性的數(shù)據(jù)集來驗證 UniKP 的性能及價值。

首先是 DLKcat 數(shù)據(jù)集,研究人員篩選后得到了 16,838 個樣本,包括來自 851 個生物體的 7,822 個獨特蛋白質(zhì)序列和 2,672 個獨特底物。數(shù)據(jù)集按照 9:1 的比例劃分為訓(xùn)練集和測試集。

其次是 pH 和溫度數(shù)據(jù)集,其中 pH 數(shù)據(jù)集包含 636 個樣本,由 261 個獨特的酶序列和 331 個獨特的底物組成;溫度數(shù)據(jù)集包含 572 個樣本,由 243 個獨特的酶序列和 302 個獨特的底物組成。數(shù)據(jù)集按照 8:2 的比例劃分為訓(xùn)練集和測試集。

第三是米氏常數(shù) (Km) 數(shù)據(jù)集,由 11,722 個樣本組成,包括酶序列、底物分子指紋圖譜和相應(yīng)的 Km 值。數(shù)據(jù)集按照 8:2 的比例劃分為訓(xùn)練集和測試集。

第四是 kcat/Km 數(shù)據(jù)集,包含 910 個由酶序列、底物結(jié)構(gòu)及其相應(yīng)的 kcat/Km 值組成的樣本。

兩大關(guān)鍵組件:表示模塊+機器學(xué)習模塊
研究團隊提出的 UniKP,能提高根據(jù)給定的酶序列和底物結(jié)構(gòu)預(yù)測 kcat、Km 和 kcat / Km 的準確性。UniKP 框架由兩個關(guān)鍵組件組成——表示模塊 (representation module) 和機器學(xué)習模塊。

表示模塊的作用是將復(fù)雜的酶和底物信息轉(zhuǎn)換為機器學(xué)習模型能夠理解和處理的向量表示,以便后續(xù)的機器學(xué)習模塊進行預(yù)測和分析。

其中,酶序列表示模塊 (Enzyme sequence representation module), 使用預(yù)訓(xùn)練語言模型 ProtT5-XL-UniRef50 對酶的信息進行編碼,每個氨基酸通過該模型被轉(zhuǎn)換為一個 1,024 維的向量,并通過均值池化 (averaged by mean pooling) 進行處理,最終生成一個 1,024 維的向量來表示整個酶的序列信息(如上圖所示)。

底物結(jié)構(gòu)表示模塊 (Substrate structure representation module),使用預(yù)訓(xùn)練語言模型 SMILES Transformer model 對底物的信息進行編碼。底物結(jié)構(gòu)被轉(zhuǎn)換為 SMILES 格式,進而通過預(yù)訓(xùn)練的 SMILES 轉(zhuǎn)換器生成一個 1,024 維的向量,并對最后一層和倒數(shù)第二層的第一個輸出進行均值和最大池化,最終生成一個 1,024 維的向量來表示底物的結(jié)構(gòu)信息(如上圖所示)。

針對機器學(xué)習模塊,研究團隊對比了 16 種不同的機器學(xué)習模型,以及 2 種代表性的深度學(xué)習模型——卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。

結(jié)果顯示,集成性模型表現(xiàn)出更好的性能,尤其是隨機森林 (random forests) 和極端隨機樹 (extra trees) 顯著優(yōu)于其他模型,其中極端隨機樹表現(xiàn)最佳 (R2=0.65)。如上圖所示,機器學(xué)習模型以連接表示向量為輸入,生成預(yù)測的 kcat、Km 或 kcat / Km 值。

此外,研究人員將環(huán)境因素納入考量,生成了優(yōu)化的預(yù)測框架,并在涵蓋 pH 和溫度信息的兩個數(shù)據(jù)集上進行了驗證(如上圖所示)。

最后,UniKP 通過不同的重新加權(quán)方法來調(diào)整樣本權(quán)重分布,從而為高價值預(yù)測任務(wù)生成優(yōu)化預(yù)測結(jié)果(如上圖所示)。

雙層框架——EF-UniKP
作為雙層框架,EF-UniKP 包含一個基礎(chǔ)層 (base layer) 和一個元層 (meta layer),如下圖所示:


EF-UniKP 架構(gòu)

基礎(chǔ)層包含兩個獨立模型——UniKP 和 Revised UniKP。UniKP 以蛋白質(zhì)和底物的連接表示向量作為輸入,而 Revised UniKP 使用蛋白質(zhì)和底物的連接表示向量、結(jié)合 pH 或溫度值作為輸入。

元層包括一個線性回歸模型,使用來自 UniKP 和 Revised UniKP 的預(yù)測 kcat 值來預(yù)測最終的 kcat 值。

R2 值高出20%,EF-UniKP 完勝
研究團隊在 kcat 預(yù)測任務(wù)上使用 DLKcat 數(shù)據(jù)集對 UniKP 框架進行了驗證,該數(shù)據(jù)集包含 16,838 個樣本。在 5 輪隨機劃分的測試集驗證中,UniKP 的 R2 值為 0.68,比 DLKcat 提高了20%。此外,在測試中,DLKcat 的最高值比 UniKP 的最低值低了 16%,進一步證明了 UniKP 的穩(wěn)健性。


UniKP 在 kcat 預(yù)測中的表現(xiàn)

隨后,研究團隊創(chuàng)建了涵蓋 pH 和溫度信息的兩個數(shù)據(jù)集來對 EF-UniKP 進行了評估,并分別按照 8:2 的比例劃分為訓(xùn)練集和測試集。

在測試集上,EF-UniKP 相較于 UniKP 和 Revised UniKP 表現(xiàn)更佳。在 pH 數(shù)據(jù)集測試中,EF-UniKP 的 R2 分別高出 20% 和 8%,在溫度數(shù)據(jù)集測試中,EF-UniKP 的 R2 分別高出 26% 和 2%。在酶和底物至少有一個不在訓(xùn)練集的測試中,EF-UniKP 在 pH 數(shù)據(jù)集上的 R2 值相較于 UniKP 和 Revised UniKP 分別高出 13% 和 10%,在溫度數(shù)據(jù)集上分別高出 16% 和 4%。


EF-UniKP相較于UniKP和Revised UniKP表現(xiàn)更佳

蝴蝶模式:拉通科研與產(chǎn)業(yè)
羅小舟課題組背后的中國科學(xué)院深圳先進技術(shù)研究院(簡稱“深圳先進院”)是由中國科學(xué)院、深圳市人民政府及香港中文大學(xué)于 2006 年 2 月共同建立的,由 8 個研究所組成:

* 中國科學(xué)院香港中文大學(xué)深圳先進集成技術(shù)研究所

* 生物醫(yī)學(xué)與健康工程研究所

* 先進計算與數(shù)字工程研究所

* 生物醫(yī)藥與技術(shù)研究所

* 腦認知與腦疾病研究所

* 合成生物學(xué)研究所

* 先進材料科學(xué)與工程研究所

* 碳中和技術(shù)研究所(籌)

羅小舟博士是在 2019 年完成了在加州大學(xué)伯克利分校的博士后研究,回國并正式加入深圳先進院合成生物學(xué)研究所,任職研究員。同年,其作為合伙人之一籌備的 「森瑞斯生物」也在深圳正式成立,專注于合成生物技術(shù)的研發(fā)及其在各領(lǐng)域的創(chuàng)新應(yīng)用。2022 年 3 月,公司完成了近億元人民幣的 A 輪融資。

羅小舟博士「科研」與「產(chǎn)業(yè)」兼顧的發(fā)展路徑恰恰與深圳先進院的宗旨完美契合。據(jù)介紹,深圳先進院探索了「0—1—10—∞的蝴蝶模式」,這也在森瑞斯生物得到了很好的實踐。

在發(fā)現(xiàn)液體橡膠 HVR 和大麻素 CBD 可共用同一自主知識產(chǎn)權(quán)的底盤細胞后,森瑞斯利用其前期已開發(fā)的數(shù)個針對釀酒酵母改造的工藝方法,再結(jié)合內(nèi)部的合成生物元件庫,在 6 個月時間內(nèi)就將液體橡膠 HVR 產(chǎn)量提升到了可商業(yè)化的水平。

這其中,羅小舟博士與其導(dǎo)師、同時也是森瑞斯的發(fā)起人之一 Jay D. Keasling 院士合作,在 2019 年便成功打通大麻素的生物全合成通路,成為了其商業(yè)化的基礎(chǔ)。

羅小舟表示,實現(xiàn)管線的快速產(chǎn)業(yè)化有著兩大關(guān)鍵因素:一是學(xué)術(shù)界和產(chǎn)業(yè)深度融合,學(xué)術(shù)界有效搭建產(chǎn)業(yè)界所需化合物的 0-1 的合成通路;二是標準化的生產(chǎn)工藝和工具,覆蓋從 0-1 的學(xué)術(shù)研究、1-10 的工程研發(fā)、到 10 - 無限工業(yè)化放大這三個階段,打造合成生物的生產(chǎn)線,提升 1-10 的研發(fā)效率。

參考資料:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw

評論
科普中國俄體鎮(zhèn)023
太師級
2024-01-17
科普ZSL
學(xué)士級
已閱
2024-03-13
科普員 李菁
舉人級
學(xué)習了
2024-01-19