版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

2024年諾貝爾化學(xué)獎(jiǎng):如何用AI破解蛋白質(zhì)之謎?

星空計(jì)劃
原創(chuàng)
星空計(jì)劃運(yùn)營團(tuán)隊(duì)賬號(hào):活動(dòng)信息發(fā)布、創(chuàng)作者培育計(jì)劃作品發(fā)布等
收藏

圖蟲創(chuàng)意

對(duì)于生命而言,蛋白質(zhì)的重要性,怎么強(qiáng)調(diào)都不過分。2024年的諾貝爾化學(xué)獎(jiǎng)就頒發(fā)給了三位在蛋白質(zhì)領(lǐng)域做出杰出貢獻(xiàn)的的科學(xué)家,他們是David Baker,Demis Hassabis和John M. Jumper。想要理解為什么蛋白質(zhì)如此重要,以及三位獲獎(jiǎng)人的工作,我們就需要先從生命開始說起。

那么,什么是生命呢?如果我們想要將某個(gè)東西歸類為生命,那么它就必須符合以下標(biāo)準(zhǔn):

生命必須維持一個(gè)相對(duì)穩(wěn)定的內(nèi)部環(huán)境,比如我們?nèi)祟愋枰3趾愣ǖ捏w溫和鹽平衡。

生命需要對(duì)周圍環(huán)境做出反應(yīng)。比如當(dāng)我們感覺冷的時(shí)候,就會(huì)顫抖,這樣會(huì)增加摩擦,從而產(chǎn)生熱量。

生命的基本結(jié)構(gòu)和功能單位是細(xì)胞。

生命會(huì)吸收和轉(zhuǎn)化營養(yǎng)物質(zhì)以滿足需求。這就是我們所說的新陳代謝。

生命可以繁殖,它可以無性繁殖和有性繁殖。

但是,假如沒有蛋白質(zhì),那么剛才提到的這些標(biāo)準(zhǔn)就都無法滿足!那么什么是蛋白質(zhì)呢?

蛋白質(zhì)主要是由20種不同的氨基酸組成的。這些氨基酸可以以無數(shù)種不同的組合,像珍珠一樣串連在一起。蛋白質(zhì)之所以如此神通廣大,是因?yàn)檫@些珍珠串或者說氨基酸鏈,會(huì)扭曲并折疊成特定的三維結(jié)構(gòu)。正是蛋白質(zhì)的三維結(jié)構(gòu)決定了每一種蛋白質(zhì)的特定功能。例如,有的蛋白質(zhì)會(huì)形成皮膚、骨骼和肌肉;有的會(huì)形成酶,以確保體內(nèi)化學(xué)反應(yīng)有效進(jìn)行;有的則會(huì)在血液的幫助下,將各種物質(zhì)輸送到全身。

在過去的50多年里,科學(xué)家一直夢(mèng)想著能夠在只知道氨基酸序列的情況下,預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。但是這個(gè)領(lǐng)域的進(jìn)展一直非常緩慢,直到2020年。

在那一年,Demis Hassabis和John Jumper開發(fā)了一種人工智能模型,叫AlphaFold2。如果我們知道了氨基酸的序列,那么它就可以預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。

為了訓(xùn)練AlphaFold2,他們給它輸入了大量的數(shù)據(jù)。具體來說,通過向AlphaFold2輸入已知的氨基酸序列,以及它們形成的蛋白質(zhì)的三維結(jié)構(gòu),AlphaFold2學(xué)會(huì)了理解序列及其結(jié)構(gòu)之間的模式和關(guān)系。我們可以把這類比于教一個(gè)小孩識(shí)別和搭建各種樂高模型。一開始,你會(huì)給他很多完整的樂高玩具,比如宇宙飛船、汽車和房子。通過看到這么多的例子,他學(xué)會(huì)了識(shí)別哪些部件應(yīng)該放在哪里,以及如何自己組裝類似的組件。他從他見過的所有不同的模型中學(xué)習(xí)模式和技術(shù)。

經(jīng)過訓(xùn)練后,AlphaFold2就可以通過新獲取的氨基酸序列,來預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。具體來說,當(dāng)它接收到一個(gè)它以前沒有見過的新氨基酸序列時(shí),它會(huì)開始將這個(gè)新序列與它從訓(xùn)練數(shù)據(jù)中學(xué)到的大量序列和結(jié)構(gòu)進(jìn)行比較。通過識(shí)別新序列和記憶中的序列之間的模式和相似性,AlphaFold2會(huì)嘗試將新的序列組裝成一個(gè)合理的三維結(jié)構(gòu),它會(huì)測(cè)試不同的組裝方式,并利用它的知識(shí)來估計(jì)哪種方式最有可能是正確的。結(jié)果表明,AlphaFold2是極其強(qiáng)大的,它成功地解決了化學(xué)家苦苦思索了50年的問題。

如今,在AlphaFold2的幫助下,研究人員可以預(yù)測(cè)發(fā)現(xiàn)的幾乎所有2億個(gè)蛋白質(zhì)的結(jié)構(gòu)。全世界已經(jīng)有200多萬人使用它,并取得了重大的科研進(jìn)展。

現(xiàn)在,我們已經(jīng)知道Demis Hassabis和John Jumper采用的方法是從氨基酸序列開始預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu),但David Baker則采用了相反的方法:他從一個(gè)蛋白質(zhì)的三維結(jié)構(gòu)開始,然后使用一個(gè)名為Rosetta的計(jì)算機(jī)程序,來找出構(gòu)建這個(gè)結(jié)構(gòu)所需要的氨基酸。

David Baker的團(tuán)隊(duì)會(huì)使用Rosetta來設(shè)計(jì)一個(gè)具有特定結(jié)構(gòu)和功能的蛋白質(zhì)的三維模型。然后,Rosetta會(huì)計(jì)算出哪些氨基酸會(huì)自然地聚集在一起形成設(shè)計(jì)的蛋白質(zhì)結(jié)構(gòu)。根據(jù)它確定的氨基酸序列,他們?cè)趯?shí)驗(yàn)室合成了這種蛋白質(zhì),然后使用了一種叫做X射線晶體學(xué)的精確方法來確定蛋白質(zhì)的實(shí)際三維結(jié)構(gòu),看看它是否符合他們的設(shè)計(jì)。

結(jié)果表明實(shí)際結(jié)構(gòu)與設(shè)計(jì)的假想蛋白質(zhì)結(jié)構(gòu)是相匹配的。這證實(shí)了Rosetta可以準(zhǔn)確地預(yù)測(cè)產(chǎn)生特定三維蛋白質(zhì)結(jié)構(gòu)所需的氨基酸序列。

現(xiàn)在,科學(xué)家不僅可以從氨基酸序列開始,創(chuàng)造一個(gè)完整的蛋白質(zhì);也可以從一個(gè)想要的蛋白質(zhì)結(jié)構(gòu)開始,找出相應(yīng)的氨基酸序列來創(chuàng)造它。這種雙重能力就像既能按照指示用積木制作玩具,又能通過先決定玩具的結(jié)構(gòu),然后找出使用哪些積木來發(fā)明新玩具。

總而言之,更好地了解蛋白質(zhì)的三維結(jié)構(gòu)不僅可以增加我們對(duì)疾病的了解,也為未來開發(fā)新的藥物鋪平了道路。同樣重要的是,我們現(xiàn)在有能力創(chuàng)造出具有新功能的蛋白質(zhì),這對(duì)于設(shè)計(jì)新的納米材料、開發(fā)靶向藥物,以及制造疫苗都具有重大意義。

因此,三位獲獎(jiǎng)人所開發(fā)的工具不僅讓我們能夠更加深入地了解生命,也使我們能夠創(chuàng)造一個(gè)更加健康和創(chuàng)新的未來。

本文為科普中國·創(chuàng)作培育計(jì)劃扶持作品
作者:李兆瀅

審核:梁前進(jìn) 北京師范大學(xué)生命科學(xué)學(xué)院 教授

出品:中國科協(xié)科普部

監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
科普ZSL
學(xué)士級(jí)
已閱讀
2024-10-22
風(fēng)和日麗君
學(xué)士級(jí)
蛋白質(zhì)主要是由20種不同的氨基酸組成的。這些氨基酸可以以無數(shù)種不同的組合,像珍珠一樣串連在一起。蛋白質(zhì)之所以如此神通廣大,是因?yàn)檫@些珍珠串或者說氨基酸鏈,會(huì)扭曲并折疊成特定的三維結(jié)構(gòu)。正是蛋白質(zhì)的三維結(jié)構(gòu)決定了每一種蛋白質(zhì)的特定功能。
2024-10-23
祥和123
庶吉士級(jí)
AI應(yīng)用越來越廣泛越來越強(qiáng)
2024-10-23