版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

合成生物新突破!中科院羅小舟團(tuán)隊(duì)開發(fā) ProEnsemble機(jī)器學(xué)習(xí)框架:優(yōu)化進(jìn)化通路啟動(dòng)子組合

HyperAI超神經(jīng)
原創(chuàng)
人工智能說(shuō)明書,了解 AI 的功效和副作用。
收藏

在合成生物學(xué)領(lǐng)域,研究人員將來(lái)自其他生物體的酶基因?qū)肽撤N宿主體中,構(gòu)建起新的代謝途徑,可以讓宿主生產(chǎn)出自己本身不能合成的物質(zhì),這一點(diǎn)已被證實(shí)并廣泛應(yīng)用于生物燃料、高價(jià)值化學(xué)品和抗癌藥物等化合物的生產(chǎn)中。

然而,上述的代謝途徑進(jìn)化過(guò)程并非暢通無(wú)阻,一個(gè)重要的制約因素便是基因上位效應(yīng)。

遺傳學(xué)家 Daniel Weinreich 曾表示,基因上位效應(yīng)類似于已知單個(gè)突變作用時(shí),組合突變卻產(chǎn)生「意外之喜」。具體來(lái)講,上位基因可以抑制某個(gè)特定基因的功能性表達(dá),這使得一些有助于優(yōu)化代謝途徑的基因突變無(wú)法發(fā)揮作用,造成代謝途徑進(jìn)化的不確定性。

自然狀態(tài)下,由于基因上位效應(yīng)的存在,一個(gè)酶的微小改造可能會(huì)使另一個(gè)酶阻礙代謝途徑的發(fā)展,導(dǎo)致代謝功能增強(qiáng)或新功能挖掘需要經(jīng)歷較長(zhǎng)的周期。因此,如何以更短時(shí)間、較少迭代次數(shù)快速達(dá)到數(shù)千年自然進(jìn)化所需的效果,一直是該領(lǐng)域研究的難點(diǎn)。

針對(duì)上述問(wèn)題,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院合成所羅小舟團(tuán)隊(duì)利用自動(dòng)化大設(shè)施平臺(tái)技術(shù),確定可控的進(jìn)化軌跡,實(shí)現(xiàn)了代謝通路多個(gè)關(guān)鍵性基因的自動(dòng)同步進(jìn)化。同時(shí),結(jié)合 ProEnsemble 機(jī)器學(xué)習(xí)框架來(lái)優(yōu)化啟動(dòng)子組合,緩解進(jìn)化途徑中基因上位效應(yīng)的影響,創(chuàng)造了一個(gè)高效的通用型底盤。

研究亮點(diǎn):

* 融合自動(dòng)化和機(jī)器學(xué)習(xí)的優(yōu)勢(shì),提高底盤開發(fā)的速度和效率,縮短研發(fā)周期,降低成本。

* 為生物智能制造領(lǐng)域提供了前沿的技術(shù)路線和全新的解決方案。

論文地址:
https://onlinelibrary.wiley.com/doi/full/10.1002/advs.202306935
關(guān)注公眾號(hào),后臺(tái)回復(fù)「代謝途徑」獲取完整 PDF

自動(dòng)化平臺(tái)加速代謝途徑同步進(jìn)化

通路瓶頸設(shè)計(jì)與解除策略的三個(gè)階段

本研究提出了一種通路瓶頸設(shè)計(jì)與解除策略的方案,以柚皮素為例:

第一階段,搭載自動(dòng)化大設(shè)施平臺(tái)技術(shù),讓合成柚皮素的相關(guān)基因低水平表達(dá)(低拷貝數(shù)背景),構(gòu)建一個(gè)柚皮素合成的人工代謝瓶頸。

第二階段,篩選與原始突變體柚皮素產(chǎn)量相當(dāng)?shù)暮蜻x突變體 4CL-11C1 和 CHS-9H9,消除柚皮素途徑的瓶頸。

第三階段,通過(guò)人工智能介導(dǎo)的啟動(dòng)子工程,將單個(gè)基因的突變體放回原始通路并平衡代謝流。

研究結(jié)果表明,在清晰軌跡的范圍內(nèi),人工瓶頸創(chuàng)造與解除策略可實(shí)現(xiàn)代謝途徑的高效進(jìn)化,也進(jìn)一步證實(shí)了上位效應(yīng)可能會(huì)限制途徑進(jìn)化的邊界。

此外,對(duì)柚皮素關(guān)鍵基因所對(duì)應(yīng)的三種酶進(jìn)行定向進(jìn)化可能會(huì)誘發(fā)代謝途徑失衡。對(duì)此,研究人員借助機(jī)器學(xué)習(xí)框架 ProEnsemble 來(lái)優(yōu)化進(jìn)化通路的啟動(dòng)子組合,進(jìn)一步優(yōu)化每種途徑酶的表達(dá),提高柚皮素的產(chǎn)量。

數(shù)據(jù)集:歷史公開數(shù)據(jù)篩選
數(shù)據(jù)集1:研究人員從文獻(xiàn)資料中篩選出 42 個(gè)具有廣泛動(dòng)態(tài)范圍的已報(bào)道啟動(dòng)子,最終篩選了 12 個(gè)強(qiáng)度差異顯著的啟動(dòng)子,并將它們分為高強(qiáng)度、中強(qiáng)度和低強(qiáng)度三類。


用于激活TAL-26E7, 4CL-11C1, CHS-9H9和CHI基因的12個(gè)候選啟動(dòng)子的表達(dá)強(qiáng)度水平;
PT7啟動(dòng)子為陽(yáng)性啟動(dòng)子,PBAD啟動(dòng)子為陰性啟動(dòng)子

數(shù)據(jù)集2:研究人員通過(guò) Al3+ 信號(hào)檢測(cè)法篩選了大約 1,000 個(gè)能夠產(chǎn)生高柚皮素濃度的突變體,并從中收集了一個(gè)平衡數(shù)據(jù)集。隨后,選擇了其中 108 個(gè) Al3+ 信號(hào)高于 0.2 的突變體作為高產(chǎn)代表,又隨機(jī)挑選了 50 個(gè) Al3+ 信號(hào)低于 0.2 的樣本,共 158 個(gè)突變體。其中,Top1 的 NAR1.0 菌株柚皮素產(chǎn)量比對(duì)照組高出 4.44 倍。

模型架構(gòu):ProEnsemble 優(yōu)化啟動(dòng)子組合
研究人員提出了一種名為 ProEnsemble 的啟動(dòng)子組合預(yù)測(cè)框架,該框架旨在建立不同啟動(dòng)子組合與柚皮素產(chǎn)量之間的關(guān)系,即將 12 種不同類型啟動(dòng)子編碼,對(duì)應(yīng)的輸出是柚皮素的產(chǎn)量。


ProEnsemble 模型方案

具體來(lái)說(shuō),通過(guò)對(duì)上述包含 158 個(gè)突變體的數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證,評(píng)估 13 種常規(guī)預(yù)測(cè)器的均方根誤差 (Root Mean Square Error, RMSE)。

隨后,通過(guò)前向模型選擇,將誤差最小的預(yù)測(cè)器依次進(jìn)行集成,選擇 RMSE 最小的集成模型作為最終的預(yù)測(cè)模型。最佳模型是 Gradient Boosting Regressor, Ridge Regressor 和 Gradient Boosting 的組合。

研究結(jié)果表明,該 ProEnsemble 模型預(yù)測(cè)的 Top5 菌株柚皮素產(chǎn)量均高于 700 mg/L,比隨機(jī)采樣(960 樣本有 5 個(gè)高產(chǎn)菌株)更具高效性和準(zhǔn)確性。

但是,該數(shù)據(jù)集的不平衡分布可能會(huì)限制模型的預(yù)測(cè)能力,導(dǎo)致 Top5 菌株產(chǎn)量均未超過(guò) NAR1.0 菌株。

模型優(yōu)化:平衡分布數(shù)據(jù),增強(qiáng)模型性能
研究人員重新從另外 1,500 個(gè)克隆子中進(jìn)一步擴(kuò)大訓(xùn)練集,分別用柚皮素含量高于 400、500、600、700 和 800 mg/L 的數(shù)據(jù)集優(yōu)化模型。


柚皮素測(cè)定值與最優(yōu)預(yù)測(cè)模型預(yù)測(cè)值的 PCC

最終,在初始數(shù)據(jù)集中增加 27 個(gè)高于 600 mg/L 的數(shù)據(jù)集后,模型表現(xiàn)最佳,Pearson 相關(guān)系數(shù) (PCC) 從 0.74 提高到 0.82,結(jié)果表明數(shù)據(jù)集平衡分布對(duì)增強(qiáng)模型性能的重要性。


不同菌株中的柚皮素產(chǎn)量

通過(guò)檢測(cè)不同菌株中的柚皮素產(chǎn)量,研究人員發(fā)現(xiàn)第二輪預(yù)測(cè)的 Top5 菌株均能高效合成柚皮素。最高產(chǎn)的 NAR2.0 為 1.21 g/L,比 NAR1.0 高出 16%,比未經(jīng)啟動(dòng)子優(yōu)化的初始構(gòu)建體高 5.16 倍。

值得注意的是,隨機(jī)啟動(dòng)子庫(kù)中超過(guò) 99.11% 的菌株產(chǎn)量低于 1g/L,這表明 ProEnsemble 集成模型具有挖掘高產(chǎn)菌株的可能性。

實(shí)驗(yàn)結(jié)論:通用型底盤高效合成黃酮類化合物

柚皮素底盤高效合成下游黃酮類化合物

為了進(jìn)一步驗(yàn)證該研究所提方案的可行性,研究人員通過(guò)柚皮素底盤實(shí)現(xiàn)了染料木素、櫻花素和橙皮素等黃酮類化合物的高效合成,其中染料木素產(chǎn)量達(dá)到 72.32 mg/L,櫻花素產(chǎn)量為 223.39 mg/L,橙皮素產(chǎn)量為 82.50 mg/L,各黃酮產(chǎn)量均高于文獻(xiàn)報(bào)告水平,這為生產(chǎn)高附加值化合物提供了新的思路。

中國(guó)的合成生物產(chǎn)業(yè)仍處于初級(jí)階段
近年來(lái),歐美等發(fā)達(dá)國(guó)家紛紛采取措施推動(dòng)合成生物學(xué)及其相關(guān)制造業(yè)的發(fā)展,我國(guó)政府也對(duì)該領(lǐng)域給予了高度重視,并將合成生物技術(shù)列為引領(lǐng)我國(guó)產(chǎn)業(yè)變革的顛覆性技術(shù),與之息息相關(guān)的代謝途徑優(yōu)化,成為了越來(lái)越多研究者關(guān)注的熱點(diǎn)。

在 AI 與大數(shù)據(jù)時(shí)代背景下,機(jī)器學(xué)習(xí)技術(shù)的自動(dòng)化學(xué)習(xí)、靈活性和強(qiáng)大的數(shù)據(jù)處理能力等,為代謝途徑的優(yōu)化提供了新的思考方向,也為合成生物學(xué)帶來(lái)了新的生機(jī)。

事實(shí)上,國(guó)內(nèi)早有先驅(qū)者投身這一新興行業(yè),本文的作者羅小舟就在 2019 年創(chuàng)立了一家專注研發(fā)合成生物技術(shù)的企業(yè)——森瑞斯生物科技(深圳)有限公司。該公司把大數(shù)據(jù)和 AI 技術(shù)用于生物合成,背靠院校的科研資源,快速研發(fā)和落地了一些高附加值的產(chǎn)品管線,成功攻克了多項(xiàng)合成生物生產(chǎn)工藝的難題,完成了細(xì)分品類的底盤細(xì)胞構(gòu)建。

此外,今年 1 月份,羅小舟博士團(tuán)隊(duì)還曾提出了一種酶動(dòng)力學(xué)參數(shù)預(yù)測(cè)框架 EF-UniKP,該框架基于預(yù)訓(xùn)練大語(yǔ)言模型和機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)了酶動(dòng)力學(xué)參數(shù)的準(zhǔn)確預(yù)測(cè)和特定酶的高效挖掘。據(jù)了解,目前研究團(tuán)隊(duì)正在與森瑞斯生物科技(深圳)有限公司展開進(jìn)一步的合作,有望推動(dòng)該技術(shù)的落地和轉(zhuǎn)化。(點(diǎn)擊查看詳細(xì)內(nèi)容:中科院羅小舟團(tuán)隊(duì)提出 UniKP 框架,大模型 + 機(jī)器學(xué)習(xí)高精度預(yù)測(cè)酶動(dòng)力學(xué)參數(shù))

可以說(shuō),羅小舟博士完美踐行了「產(chǎn)研融合」,在深耕合成生物學(xué)研究的同時(shí),也在推動(dòng)優(yōu)秀成果落地產(chǎn)業(yè)。面對(duì)全球合成生物學(xué)產(chǎn)業(yè)的蓬勃發(fā)展現(xiàn)狀,羅小舟表示,盡管我國(guó)在合成生物產(chǎn)業(yè)取得了初步成就,但仍處于起始階段。因此,進(jìn)一步加強(qiáng)核心技術(shù)的研發(fā),確??蒲谐晒c產(chǎn)業(yè)實(shí)踐的深度結(jié)合,是縮小我國(guó)與發(fā)達(dá)國(guó)家合成生物產(chǎn)業(yè)差距的關(guān)鍵所在。

參考資料:
1.http://cn.chinagate.cn/news/2018-11/16/content_72414672_2.htm

2.https://new.qq.com/rain/a/20230918A03TY700

3.https://sheitc.sh.gov.cn/dsxxjyzl/20231129/7321884958b14651abeac020f7802f8b.html

4.https://www.develpress.com/?p=4755

5.http://www.isynbio.org/news-detail.aspx?detail=8217&parm=1772

6.https://www.cn-healthcare.com/article/20221028/content-574249.html

7.https://isynbio.siat.ac.cn/view.php?id=814

評(píng)論
內(nèi)蒙古自治區(qū)鄂爾多斯市烏審旗科學(xué)技術(shù)協(xié)會(huì)
貢士級(jí)
研究亮點(diǎn):* 融合自動(dòng)化和機(jī)器學(xué)習(xí)的優(yōu)勢(shì),提高底盤開發(fā)的速度和效率,縮短研發(fā)周期,降低成本。* 為生物智能制造領(lǐng)域提供了前沿的技術(shù)路線和全新的解決方案。
2024-04-04
撫松縣新屯子鎮(zhèn)中學(xué)康志明
大學(xué)士級(jí)
2024-04-03
求識(shí)
庶吉士級(jí)
學(xué)習(xí)。
2024-04-03