版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

AI技術(shù)輔助蛋白高效設(shè)計, 普言生物實現(xiàn)蛋白功能提升10倍以上

醫(yī)藥界
原創(chuàng)
致力成為醫(yī)藥行業(yè)最大規(guī)模、最具影響力的媒體資源平臺。
收藏

日前,廣東普言生物科技有限公司(以下簡稱“普言生物”)榮獲第九屆“創(chuàng)客中國”廣東省中小企業(yè)創(chuàng)新創(chuàng)業(yè)大賽暨第八屆“創(chuàng)客廣東”大賽生物醫(yī)藥與健康領(lǐng)域?qū)n}決賽銅獎;另8月13日,普言生物也獲得2024年第十三屆中國創(chuàng)新創(chuàng)業(yè)大賽(廣東·中山賽區(qū))暨第八屆中山市科技創(chuàng)新創(chuàng)業(yè)大賽決賽三等獎。兩次參賽都位于成長組,普言生物作為成立不足兩年的年輕生物技術(shù)公司,與眾多成立數(shù)年的企業(yè)競爭并獲得獎項是對普言生物階段性發(fā)展的認可。

“普言生物是一家聚焦合成生物學技術(shù)創(chuàng)新與工業(yè)化,開發(fā)重組功能蛋白的科技公司。我們在不到2年時間內(nèi)完成10多種功能蛋白的研發(fā)及量產(chǎn),并搭建了中試平臺和生物工廠,我們高效的研發(fā)能力和綠色低耗的產(chǎn)線可以為客戶提供增值服務(wù)?!逼昭陨顲EO介紹說。據(jù)報道,普言生物已成功構(gòu)建了一個以重組功能蛋白矩陣為基礎(chǔ)的研發(fā)與生物制造平臺,開發(fā)了涵蓋多型重組人源化膠原蛋白(I、III、IV、VII、XVII型)、纖連蛋白、彈性蛋白、血清白蛋白、金屬硫蛋白、絲聚蛋白等10余種高性能功能蛋白?!叭斯ぶ悄?AI)技術(shù)的持續(xù)投入與應(yīng)用,使我們在蛋白設(shè)計和功效上獲得更多優(yōu)勢?!逼昭陨顲EO說到。

蛋白質(zhì)是生命的基礎(chǔ),一般由大于50個、平均200-400個氨基酸排列組合,并折疊成有特定功能、活性的結(jié)構(gòu)。以100個氨基酸組成的蛋白質(zhì)為例,其組合可能性有10的130次方(10^130),遠超宇宙粒子的總數(shù)(10的80次方(10^80))。更重要的是,在特定序列基礎(chǔ)上的蛋白三維結(jié)構(gòu)計算預(yù)測更是紛繁復雜。過去,傳統(tǒng)蛋白質(zhì)序列截取與設(shè)計嚴重依賴人工篩選,過程極其低效。近幾年,人工智能(AI)技術(shù)的發(fā)展賦予蛋白設(shè)計更廣泛的應(yīng)用潛力。這些模型對現(xiàn)有蛋白序列進行深度學習,并通過算法對數(shù)據(jù)及模型持續(xù)優(yōu)化、迭代,挖掘并生成具有特定功能、活性的序列及其與細胞系統(tǒng)的潛在互作關(guān)系,極大提升了蛋白設(shè)計的效率與產(chǎn)業(yè)化能力。

“基于AI和蛋白質(zhì)的特點,我們從幾方面實現(xiàn)AI的蛋白質(zhì)設(shè)計應(yīng)用。首先,從各大數(shù)據(jù)中心收集、歸納和分類,構(gòu)建得到數(shù)據(jù)量達10^5-10^9的蛋白質(zhì)序列、結(jié)構(gòu)、功能、互作網(wǎng)絡(luò)等數(shù)據(jù)庫,以及各種特定蛋白質(zhì)(如膠原蛋白)的數(shù)據(jù)庫。我們建立的大規(guī)模、精細化、高精度、高覆蓋的數(shù)據(jù)庫,為AI模型的高效、高質(zhì)量預(yù)訓練提供了關(guān)鍵基礎(chǔ)。第二,我們根據(jù)開發(fā)需求構(gòu)建了兩個基本的AI模型:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多模態(tài)(multimodal)、多軌(multitrack)深度學習模型,可以有效理解蛋白序列、理化特性與功能的高維內(nèi)在關(guān)系,實現(xiàn)對某一特定蛋白進行每天超億級別序列的超精確計算分析;此外,基于transformer的大規(guī)模語言模型,利用10^10級別的超參數(shù)和10^8級別的訓練步驟,并引入對抗網(wǎng)絡(luò)以提高其生成效率及準確性,實現(xiàn)對百億級別蛋白數(shù)據(jù)進行計算分析。第三,我們采用更適于生物學的指標,如精確率、召回率、F1分數(shù)、準確率、Matthews相關(guān)系數(shù)(MCC)等,提高AI模型訓練的有效性、高效性以及準確性,實現(xiàn)更低的算力獲得更高的算量。第四,基于我們建立的合成生物學技術(shù)平臺,實現(xiàn)AI與合成生物學技術(shù)融合,可以對計算預(yù)測的蛋白質(zhì)進行快速合成、高通量篩選和評估,并形成具有精細注釋的實體數(shù)據(jù),實現(xiàn)對數(shù)據(jù)庫和模型訓練的更新迭代,使AI模型具有強的自我進化能力,從而獲得高活性、高表達量及高穩(wěn)定性的功能蛋白?!逼昭陨顲EO介紹道。

“目前,模型所預(yù)測的蛋白99%以上有活性,而且有一半以上在表達量、活性、穩(wěn)定性等不同屬性上有提高。這極大加速了我們高質(zhì)量蛋白產(chǎn)品的研發(fā),并保持我們產(chǎn)品的創(chuàng)新和安全低耗。以重組人源化膠原蛋白為例,我們通過大規(guī)模語言模型進行百億級別序列篩選,生成的序列經(jīng)過實驗驗證其蛋白功能達到+673%,相比傳統(tǒng)重組膠原蛋白的功能提升約10倍以上?!逼昭陨顲EO進一步補充道。

圖:數(shù)據(jù)與深度學習輔助蛋白質(zhì)高效設(shè)計

普言生物將繼續(xù)致力于人工智能(AI)技術(shù)在合成生物領(lǐng)域的應(yīng)用發(fā)展,推動算法模型與工程進一步融合,并探索更多蛋白設(shè)計的可能性與應(yīng)用場景,從而滿足更廣泛的個性化產(chǎn)業(yè)應(yīng)用需求,為合成生物產(chǎn)業(yè)挖掘新的價值點。(來源:中國網(wǎng))

評論
科普劼祚
少傅級
蛋白質(zhì)是生命的基礎(chǔ),一般由大于50個、平均200-400個氨基酸排列組合,并折疊成有特定功能、活性的結(jié)構(gòu)
2024-09-07
Ljh春暖花開
少師級
加強研究
2024-09-06
科普63fe9cee91912
貢生級
加強研究吧
2024-09-06