2024年5月AlphaFold 3問(wèn)世,在預(yù)測(cè)生物分子結(jié)構(gòu)方面再次升級(jí),不僅提升了預(yù)測(cè)精度,其適用性也更加廣泛,很多人認(rèn)為這是具有里程碑意義的進(jìn)展。人工智能究竟是如何預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的,為什么它的準(zhǔn)確率如此之高?本文將簡(jiǎn)要介紹AlphaFold系列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的基本原理。
撰文 | 陳清揚(yáng)
神秘的蛋白質(zhì)折疊
提到蛋白質(zhì),大家首先可能想到,它是一種人體必需的營(yíng)養(yǎng)素,也可能會(huì)想到煎蛋、牛排、或是一鍋美美的鯽魚豆腐湯。蛋白質(zhì)是美食的代名詞,更是生命功能的物質(zhì)基礎(chǔ),處處發(fā)揮作用:負(fù)責(zé)運(yùn)送氧氣的血紅蛋白是蛋白質(zhì);幫助我們消化食物的消化酶是蛋白質(zhì);胰島素、甲狀腺素等激素是蛋白質(zhì);參加免疫反應(yīng)的抗體也是蛋白質(zhì)……據(jù)估計(jì),人體內(nèi)至少存在2萬(wàn)種不同類型的蛋白質(zhì),這些蛋白質(zhì)的結(jié)構(gòu)和功能千差萬(wàn)別,但構(gòu)成它們的基本元素是一樣的——由20種氨基酸通過(guò)不同的排列組合而構(gòu)成,譬如胰島素就是由16種、51個(gè)氨基酸構(gòu)成的。
當(dāng)不同的氨基酸連成一串的時(shí)候,它們會(huì)脫水形成肽鏈,也就是蛋白質(zhì)的一級(jí)結(jié)構(gòu);而這樣的一級(jí)結(jié)構(gòu)是不穩(wěn)定的,受到疏水作用、氫鍵和范德華力等影響,肽鏈最終會(huì)折疊成一個(gè)非常復(fù)雜而穩(wěn)定的三維結(jié)構(gòu)。圖1是一個(gè)蛋白質(zhì)折疊前后對(duì)比的例子。
圖1:蛋白質(zhì)折疊示意圖
蛋白質(zhì)折疊成何種結(jié)構(gòu)決定了它將具有何種功能,于是理解蛋白質(zhì)如何折疊就成了一個(gè)十分重要的研究課題,這便是“蛋白質(zhì)折疊問(wèn)題”。一個(gè)蛋白質(zhì)如果因?yàn)楦鞣N原因而沒(méi)有正確折疊,就有可能不會(huì)正常發(fā)揮其功能,從而引發(fā)疾病,阿爾茲海默病、帕金森等疾病都和蛋白質(zhì)的錯(cuò)誤折疊有關(guān)。此外,在藥物設(shè)計(jì)上面,研究人員常常需要開(kāi)發(fā)具有特定功能的蛋白質(zhì),而這需要對(duì)蛋白質(zhì)折疊有深入理解。
1970年代,美國(guó)生物學(xué)家、諾貝爾獎(jiǎng)得主克里斯蒂安·安芬森(Christian B. Anfinsen)提出[1]:當(dāng)環(huán)境條件合適(溫度、pH值等)時(shí),蛋白質(zhì)折疊后的穩(wěn)定三維結(jié)構(gòu)完全由其氨基酸序列決定。這就是影響深遠(yuǎn)的安芬森假說(shuō)(Anfinsen's dogma),它背后的深意是:盡管蛋白質(zhì)折疊的過(guò)程十分復(fù)雜,其中有各種力、分子的相互作用,但所有的信息竟然都包含在了其最初的氨基酸序列之中,這個(gè)過(guò)程又是如何發(fā)生的呢?于是“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題”,即給定蛋白質(zhì)的氨基酸序列,輸出其最終折疊后的三維結(jié)構(gòu),成了分子生物學(xué)中的一座圣杯。
世界各地的生物學(xué)家拿起計(jì)算機(jī)這件強(qiáng)大武器,設(shè)計(jì)各路算法來(lái)追逐這座圣杯。這里有一個(gè)問(wèn)題:為什么不直接通過(guò)實(shí)驗(yàn)觀測(cè)蛋白質(zhì)來(lái)確定其空間結(jié)構(gòu)呢?事實(shí)上,自1970年代以來(lái),通過(guò)實(shí)驗(yàn)方法來(lái)確定蛋白質(zhì)結(jié)構(gòu)在不斷進(jìn)步,精度不斷提高,特別是冷凍電鏡技術(shù)得到應(yīng)用后,結(jié)構(gòu)生物學(xué)得到了長(zhǎng)足的發(fā)展。通過(guò)實(shí)驗(yàn)方法確定的蛋白質(zhì)結(jié)構(gòu)也被認(rèn)為是標(biāo)準(zhǔn)答案。不過(guò)這些實(shí)驗(yàn)方法非常耗時(shí)耗力,據(jù)估計(jì),用實(shí)驗(yàn)方法確定一個(gè)蛋白質(zhì)結(jié)構(gòu)需要10萬(wàn)美元和長(zhǎng)達(dá)數(shù)月的時(shí)間[2]。因此,如果能設(shè)計(jì)一個(gè)計(jì)算機(jī)算法來(lái)預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu),那將會(huì)大大地加速蛋白質(zhì)結(jié)構(gòu)的分析。并且計(jì)算機(jī)科學(xué)和算力的飛速發(fā)展也給生物學(xué)家們敞開(kāi)了一扇新的大門,但是,用計(jì)算機(jī)算法來(lái)做預(yù)測(cè)絕非易事。
計(jì)算機(jī)預(yù)測(cè)的兩種方式
使用計(jì)算機(jī)來(lái)對(duì)自然過(guò)程的結(jié)果進(jìn)行預(yù)測(cè)通常有兩種方式。第一種方式基于物理學(xué),模擬計(jì)算分子運(yùn)動(dòng)過(guò)程,我們不妨稱之為“模擬派”。這種方式在科學(xué)計(jì)算領(lǐng)域有廣泛應(yīng)用,我們每天都看的天氣預(yù)報(bào)正是通過(guò)計(jì)算機(jī)來(lái)模擬大氣運(yùn)動(dòng)實(shí)現(xiàn)的。類似地,看過(guò)《三體》的讀者們一定都知道,三體運(yùn)動(dòng)不存在精確的解析解,但可以通過(guò)計(jì)算機(jī)進(jìn)行數(shù)值模擬:將連續(xù)的物理過(guò)程模擬成很多離散的小步,然后在每一小步計(jì)算出可以接受的近似解,依次迭代完成最終的模擬。然而,要高分辨率地模擬物理過(guò)程需要巨大的計(jì)算量。
在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,F(xiàn)olding@Home便是一項(xiàng)知名的“模擬派”項(xiàng)目,它由斯坦福大學(xué)教授 Vijay Pande 于2000年發(fā)起,聯(lián)合全世界志愿者的計(jì)算機(jī)來(lái)構(gòu)成一個(gè)超大的分布式計(jì)算機(jī),它同時(shí)也是全世界第一臺(tái) exaflops 級(jí)別(每秒進(jìn)行1018次雙精度浮點(diǎn)數(shù)計(jì)算)的超級(jí)計(jì)算機(jī)。這樣強(qiáng)大的算力使得 Folding@Home能夠?qū)Φ鞍踪|(zhì)折疊過(guò)程進(jìn)行原子級(jí)別的模擬,超出先前估計(jì)可模擬的時(shí)段數(shù)千倍,其成果已經(jīng)參與了200余篇科學(xué)論文的發(fā)表。
模擬法的優(yōu)勢(shì)在于它可以模擬出完整的、動(dòng)態(tài)的分子運(yùn)動(dòng)過(guò)程;但是另一方面,由于需要巨大的計(jì)算量,對(duì)于比較大的蛋白質(zhì),模擬出最終的三維結(jié)構(gòu)需要非常長(zhǎng)的時(shí)間。不過(guò),正是因?yàn)椤澳M派”試圖模擬蛋白質(zhì)折疊完全的過(guò)程,這使得他們的工作的意義遠(yuǎn)遠(yuǎn)不止預(yù)測(cè)最終的三維結(jié)構(gòu)。試想,若是計(jì)算機(jī)能將蛋白質(zhì)折疊完整的動(dòng)態(tài)過(guò)程如動(dòng)畫般展現(xiàn)出來(lái),這對(duì)于科學(xué)家理解蛋白質(zhì)的錯(cuò)誤折疊和藥物設(shè)計(jì)都會(huì)有極大幫助。正因如此, Folding@Home在對(duì)于蛋白質(zhì)錯(cuò)誤折疊疾病的理解和治療上已經(jīng)做出了若干貢獻(xiàn)。
計(jì)算機(jī)預(yù)測(cè)自然過(guò)程的第二種方法是基于統(tǒng)計(jì)規(guī)律的預(yù)測(cè),我們可以稱之為“統(tǒng)計(jì)派”?!敖y(tǒng)計(jì)派”不直接對(duì)物理過(guò)程進(jìn)行模擬,而是將其視作一個(gè)黑箱,通過(guò)對(duì)過(guò)往的輸入和輸出尋找規(guī)律,進(jìn)而對(duì)新的輸入進(jìn)行預(yù)測(cè)。換言之,這個(gè)過(guò)程是“數(shù)據(jù)驅(qū)動(dòng)”的,首先需要有過(guò)往歷史數(shù)據(jù),然后從數(shù)據(jù)中尋找規(guī)律。因?yàn)椴恍枰M黑箱中完整的物理過(guò)程,“統(tǒng)計(jì)派”顯然比“模擬派”在計(jì)算上更高效。還是以天氣預(yù)報(bào)作為例子,“統(tǒng)計(jì)派”從過(guò)往的天氣中來(lái)尋找規(guī)律和特征,運(yùn)用數(shù)理統(tǒng)計(jì)方法對(duì)未來(lái)做出預(yù)報(bào),這就是天氣預(yù)報(bào)中的數(shù)理統(tǒng)計(jì)預(yù)報(bào)法。
然而對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題,想要精確地找出輸入輸出之間的規(guī)律也十分困難,因?yàn)槔碚撋先我鈨蓚€(gè)氨基酸之間都可能發(fā)生相互作用,其中的物理化學(xué)過(guò)程十分復(fù)雜。此外,“統(tǒng)計(jì)派”還有一個(gè)致命的難點(diǎn)在于,當(dāng)過(guò)往數(shù)據(jù)中缺乏與當(dāng)前輸入類似的輸入時(shí),預(yù)測(cè)將會(huì)變得更加困難。
AlphaFold為何如此耀眼?
“統(tǒng)計(jì)派”的一大巨作便是DeepMind公司開(kāi)發(fā)的AlphaFold了。其實(shí)在AlphaFold橫空出世之前,其他的預(yù)測(cè)算法(如 Rosetta@Home)也一直在進(jìn)步,準(zhǔn)確率不斷提升,然而AlphaFold的光芒實(shí)在太耀眼,以至于前人算法的進(jìn)步顯得十分暗淡。
2020年,AlphaFold 2參加了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)關(guān)鍵測(cè)試(CASP)比賽。這是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)界的奧林匹克競(jìng)賽,來(lái)自世界各地的參賽團(tuán)隊(duì)會(huì)拿到未知結(jié)構(gòu)的蛋白質(zhì)的氨基酸序列,然后使用自己的算法預(yù)測(cè)其三維結(jié)構(gòu),最后和實(shí)驗(yàn)測(cè)定結(jié)果進(jìn)行比較,相似度越高分?jǐn)?shù)就越高。在這一年的比賽中,AlphaFold 2取得了中位數(shù)分?jǐn)?shù)92.4分(滿分100分;90分以上被認(rèn)為預(yù)測(cè)方法可與實(shí)驗(yàn)方法媲美)的高分預(yù)測(cè)結(jié)果,它預(yù)測(cè)的蛋白質(zhì)三維結(jié)構(gòu)和最后實(shí)驗(yàn)觀測(cè)的標(biāo)準(zhǔn)答案,僅有原子大小尺度的差異!這樣出色的成績(jī)以至于讓很多人認(rèn)為,這個(gè)困擾了生物學(xué)界50年的問(wèn)題就這樣被解決了!當(dāng)然,“圣杯”不會(huì)那么容易被拿下,但生物學(xué)家迎來(lái)了一件利器。
AlphaFold是怎么做到如此準(zhǔn)確的預(yù)測(cè)的呢?它的核心武器就是深度學(xué)習(xí)。深度學(xué)習(xí)是一種從2010年代開(kāi)始蓬勃發(fā)展的機(jī)器學(xué)習(xí)技術(shù),它通過(guò)建立多層的神經(jīng)網(wǎng)絡(luò)來(lái)模擬人腦的學(xué)習(xí)方式,具有強(qiáng)大的泛化能力和表達(dá)能力,能夠自動(dòng)地從過(guò)往數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式與特征,以此對(duì)于新輸入進(jìn)行精準(zhǔn)預(yù)測(cè)。事實(shí)上,在2018年的CASP比賽中AlphaFold便已經(jīng)參賽并奪得頭籌,不過(guò)那時(shí)還尚未達(dá)到如此高的預(yù)測(cè)準(zhǔn)確率。
不過(guò),AlphaFold 2同樣也面臨諸多挑戰(zhàn)。首先,深度學(xué)習(xí)通常需要龐大的數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí),而當(dāng)時(shí)的蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank)中只有大約17萬(wàn)條蛋白質(zhì)數(shù)據(jù)。這聽(tīng)起來(lái)似乎已經(jīng)不少了,但是我們橫向?qū)Ρ纫幌戮椭肋@個(gè)數(shù)據(jù)量有多么捉襟見(jiàn)肘:同樣是在2020年訓(xùn)練的語(yǔ)言模型GPT-3使用了3000億個(gè)token(可以理解為“詞”)作為數(shù)據(jù)集,這可比17萬(wàn)大了許多個(gè)數(shù)量級(jí)。其次,AlphaFold 2預(yù)測(cè)出的三維結(jié)構(gòu)要遵循基本的空間幾何規(guī)律。從分子結(jié)構(gòu)來(lái)說(shuō),三個(gè)原子所構(gòu)成的三角形應(yīng)該遵循兩邊之和大于第三邊的基本規(guī)律,而這樣的規(guī)律又應(yīng)該如何與機(jī)器學(xué)習(xí)模型訓(xùn)練的過(guò)程結(jié)合起來(lái)?換言之,如何讓機(jī)器在有限的數(shù)據(jù)集中習(xí)得這些知識(shí)呢?
AlphaFold預(yù)測(cè)蛋白質(zhì)基本原理
圖2是AlphaFold 2深度學(xué)習(xí)模型架構(gòu)示意圖。最左邊的輸入表示需要被預(yù)測(cè)結(jié)構(gòu)的序列(input sequence);旁邊畫了一個(gè)小人,代表人類的某種蛋白質(zhì)。
圖2:AlphaFold 2深度學(xué)習(xí)模型架構(gòu)圖
接下來(lái),這個(gè)輸入序列被轉(zhuǎn)換成兩種不同的信息,傳入后面的神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代和學(xué)習(xí)。第一個(gè)信息,上面的“MSA”是多序列對(duì)比(Mutiple Sequence Alignment)的縮寫,意思是說(shuō),我們從一個(gè)現(xiàn)有的基因數(shù)據(jù)庫(kù)中搜索出與當(dāng)前輸入序列最接近的一些序列進(jìn)行對(duì)比。當(dāng)然,搜出來(lái)的這些序列不一定是存在于人體中的,圖中就舉例了三個(gè)類似的序列,分別畫上了魚、兔子和雞,代表其來(lái)自相應(yīng)的生物體。搜索這些類似的氨基酸序列有什么用呢?這是因?yàn)樯飳W(xué)里有一些基本的遺傳規(guī)律,通過(guò)觀察其他存在的相似的序列,我們可以推測(cè)兩個(gè)氨基酸之間是否存在關(guān)聯(lián),而這對(duì)于預(yù)測(cè)最終的三維結(jié)構(gòu)是非常有用的信息。舉個(gè)例子,我們可能發(fā)現(xiàn)某兩個(gè)氨基酸(譬如一個(gè)在序列首位、一個(gè)在末尾)總是成對(duì)地出現(xiàn)突變(mutation),這就意味著它們倆在最后的三維結(jié)構(gòu)中會(huì)有某種關(guān)聯(lián)。
在基因數(shù)據(jù)庫(kù)中搜出來(lái)了以后,MSA信息會(huì)被轉(zhuǎn)換成一個(gè)矩陣,也就是圖片中橙色的矩陣(MSA representation)。這個(gè)矩陣的維度是(s,r,c),s代表序列數(shù),r代表氨基酸序列的長(zhǎng)度,c代表氨基酸embedding的長(zhǎng)度,相當(dāng)于我們用一個(gè)向量來(lái)表示一個(gè)氨基酸,其長(zhǎng)度就是c。這個(gè)MSA representation矩陣在模型的訓(xùn)練過(guò)程中會(huì)被反復(fù)迭代和更新。
第二個(gè)用來(lái)學(xué)習(xí)和迭代的信息是圖2中的“Pair Representation”,它是一個(gè)維度為(r,r,c)的矩陣,相當(dāng)于把輸入序列橫著和豎著排列起來(lái)(行和列),形成一個(gè)正方形的矩陣;而元素(i,j)代表氨基酸i和氨基酸j之間的空間關(guān)系,如距離、角度等,用一個(gè)長(zhǎng)度為c的向量來(lái)表示。換言之,這里用了兩個(gè)不同的矩陣,一個(gè)是MSA,代表生物演化信息;另一個(gè)是Pair,代表空間幾何信息。在模型訓(xùn)練的過(guò)程中,這二者相輔相成、相互更新,使得模型能夠充分融合、匯總兩者包含的信息。
MSA和Pair Representation被傳入Evoformer模塊中進(jìn)行更新,圖3是DeepMind論文中提供的Evoformer展開(kāi)圖。如它的名字所暗示,Evoformer是Transformer的一個(gè)變種,即在普通的Transformer模塊里加入了各種MSA與Pair representation相互融合的操作,以及一些特定的模塊使得機(jī)器能夠習(xí)得空間幾何關(guān)系,等等。關(guān)于Transformer已經(jīng)有許多介紹,這是一種十分強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu),特別擅長(zhǎng)捕捉長(zhǎng)序列的上下文關(guān)系(long-range dependency),ChatGPT名字里的T正是Transformer。
圖3:Evoformer模塊展開(kāi)圖
Transformer的核心是一種被稱為自注意力(Self-Attention)的機(jī)制,它使得模型能夠?qū)W習(xí)出一段序列中每一個(gè)元素和其他元素的相關(guān)程度的高低。在語(yǔ)言模型的應(yīng)用中,它能幫助模型學(xué)習(xí)到一句話中每一個(gè)詞和其他詞的相關(guān)性。在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的應(yīng)用中,輸入的氨基酸序列恰恰也是一種序列——氨基酸按順序排列在一起,互相之間可以發(fā)生相互作用,這使得自注意力機(jī)制十分適用于這個(gè)場(chǎng)合。這也充分顯示了Transformer的通用性,只要是可以表示為序列的數(shù)據(jù),不管是文字、語(yǔ)音、圖像,還是蛋白質(zhì)序列,都可以使用Transformer來(lái)捕捉上下文信息。
原始的Transformer處理的是文字這種一維的序列,而AlphaFold兩種不同的輸入(MSA和Pair representation)都是二維的矩陣,于是在Evoformer模塊中,自注意力是以軸向注意力(Axial attention)的方式被使用,它是自注意力的一個(gè)變種,適用于對(duì)超過(guò)一維的數(shù)據(jù)進(jìn)行上下文捕捉,即每次按某一個(gè)軸來(lái)進(jìn)行那個(gè)維度上的自注意力計(jì)算。對(duì)于矩陣(二維)而言,是按行(row-wise)和列(column-wise)進(jìn)行自注意力計(jì)算。
Evoformer模塊里還包括了若干用來(lái)滿足三角不等式(即三角形的兩邊之和大于第三邊)的模塊,譬如Triangle multiplicative update(黃色框)和Triangle self-attention(粉紅色框),兩者皆可用來(lái)幫助模型學(xué)習(xí)到三角不等關(guān)系。前者需要的計(jì)算量更小,但AlphaFold 2團(tuán)隊(duì)發(fā)現(xiàn),兩者一起用預(yù)測(cè)準(zhǔn)確率更好。這樣的Evoformer模塊一共有48個(gè),使得模型可以一層一層地學(xué)到深層次的特征模式,在此過(guò)程中,不斷地更新MSA和pair representation,使得它們能夠表征更加豐富、準(zhǔn)確的特征信息。
我們前面提到,Alphafold 2的挑戰(zhàn)之一就是數(shù)據(jù)集比較小。研究人員的解決方案是,除了將MSA等演化相關(guān)的先驗(yàn)的人工知識(shí)嵌入到神經(jīng)網(wǎng)絡(luò)之中以外,還使用了一些擴(kuò)充數(shù)據(jù)集的技術(shù),如Self-Distillation——他們使用了一個(gè)未標(biāo)注的、具有約35萬(wàn)條氨基酸序列的新數(shù)據(jù)集Uniclust30,并使用AlphaFold 2對(duì)其進(jìn)行預(yù)測(cè),然后通過(guò)將其中高置信度的預(yù)測(cè)結(jié)果加入到原始PDB數(shù)據(jù)集中,形成了一個(gè)擴(kuò)充后的新數(shù)據(jù)集,然后在這個(gè)新的數(shù)據(jù)集上對(duì)模型進(jìn)行重新訓(xùn)練,這樣做也提升了最后的預(yù)測(cè)準(zhǔn)確率。
總體而言,在訓(xùn)練集不是很大的情況下,AlphaFold 2的一大設(shè)計(jì)挑戰(zhàn)就是將人工的知識(shí)和模型學(xué)習(xí)的過(guò)程有機(jī)地融合在一起。AlphaFold 2也很好地應(yīng)對(duì)了這個(gè)挑戰(zhàn),最后模型取得了出色的預(yù)測(cè)效果,掀起了一場(chǎng)生物信息學(xué)的革命。
更通用的AlphaFold 3
AlphaFold的腳步并沒(méi)有止步于AlphaFold 2,就在2024年5月,DeepMind推出AlphaFold 3,再次引起業(yè)界轟動(dòng)。AlphaFold 3不僅僅能夠預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu),也能預(yù)測(cè)更廣泛的生物分子復(fù)合物的結(jié)構(gòu)(包括蛋白質(zhì)、核酸、配體等),以及生物分子之間的相互作用。有趣的是,盡管AlphaFold 3對(duì)于預(yù)測(cè)精度和廣度都有提升,它自身的模型架構(gòu)相比AlphaFold 2卻更加簡(jiǎn)化而且通用了。AlphaFold 2雖然使用了Transformer這種通用的模型,但同時(shí)它也加入了許多工程化的細(xì)節(jié)去提升最后預(yù)測(cè)的結(jié)果。而在AlphaFold 3中,工程化的細(xì)節(jié)得到了簡(jiǎn)化,取而代之的是更強(qiáng)大、更通用的模塊。譬如AlphaFold 3大大降低了對(duì)于MSA的使用和依賴,而主要使用Pair representation進(jìn)行學(xué)習(xí)。AlphaFold 2中的核心模塊——Evoformer的數(shù)量在AlphaFold 3中被減到了4個(gè);同時(shí)AlphaFold 3也增加了一個(gè)新的模塊Pairformer,而這個(gè)模塊只對(duì)Pair representation進(jìn)行更新,其數(shù)量是48個(gè)。這樣的設(shè)計(jì)是為何呢?如我們前文所述,MSA中保存的是從基因數(shù)據(jù)庫(kù)中搜出來(lái)的氨基酸序列,其包含了蛋白質(zhì)演化信息,而Pair representation包含的是空間幾何信息。毫無(wú)疑問(wèn),后者是一種更加通用的表達(dá)方式,它不僅限于蛋白質(zhì)這一種分子,也適用于配體等其他分子。因此,降低對(duì)MSA的依賴而加強(qiáng)對(duì)Pair representation的學(xué)習(xí)與更新能使得模塊更加通用化、能處理更多不同類型的輸入,這也正是AlphaFold 3的目標(biāo)。
AlphaFold 3另一通用化的設(shè)計(jì)在其結(jié)構(gòu)模塊(structure module),即從Pair representation生成最終的三維結(jié)構(gòu)圖。上一代的AlphaFold 2把蛋白質(zhì)最終的三維結(jié)構(gòu)視為一系列由氨基酸殘基構(gòu)成的三角形在空間中的旋轉(zhuǎn)和平移構(gòu)成的主干框架(backbone frames)以及側(cè)鏈的扭轉(zhuǎn)(side-chain torsion),通過(guò)讓模型計(jì)算出這些三角形的旋轉(zhuǎn)角度、平移大小以及側(cè)鏈的扭轉(zhuǎn)角度來(lái)得出最終的蛋白質(zhì)三維圖像,這其中的技術(shù)細(xì)節(jié)十分復(fù)雜。而AlphaFold 3刪繁就簡(jiǎn),模型架構(gòu)中不再手動(dòng)地編入三角形、旋轉(zhuǎn)、平移等概念,而是直接采用了一個(gè)標(biāo)準(zhǔn)的擴(kuò)散模塊(diffusion module),這個(gè)擴(kuò)散模塊將直接預(yù)測(cè)每一個(gè)原子在三維結(jié)構(gòu)中的坐標(biāo),這也使得AlphaFold 3不再僅僅局限于蛋白質(zhì)這一種分子的結(jié)構(gòu)預(yù)測(cè)了。令人驚奇的是,盡管AlphaFold 3在模型架構(gòu)中去掉了許多“蛋白質(zhì)特定”的部分,其在“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”這一問(wèn)題上的預(yù)測(cè)結(jié)果竟然也超越了AlphaFold 2。這似乎意味著,當(dāng)模型走向通用化的時(shí)候,它以自己的方式從更加多樣化的輸入和任務(wù)中學(xué)習(xí)到了一些更本質(zhì)的物理、化學(xué)規(guī)律,其海量的矩陣中,似乎包含了對(duì)我們所生活的世界更精準(zhǔn)的認(rèn)知。而這些更廣博的知識(shí)也使得AlphaFold 3在專項(xiàng)任務(wù)上的表現(xiàn)更加出色。
最后總結(jié)一下,AlphaFold系列通過(guò)精準(zhǔn)預(yù)測(cè)出最終的蛋白質(zhì)結(jié)構(gòu),成為科研工作者的有力幫手;也再次證明了深度學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)復(fù)雜模式的能力,借此AI變得更加智能與多任務(wù)化。盡管如此,人類對(duì)于蛋白質(zhì)折疊完整的動(dòng)態(tài)過(guò)程和機(jī)理仍然需要更多的理解,但AlphaFold已經(jīng)成為了AI推動(dòng)科學(xué)發(fā)展的一座里程碑,而愈發(fā)強(qiáng)大的AI對(duì)于科學(xué)研究的助力還將繼續(xù)。
特 別 提 示
1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào),回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權(quán)說(shuō)明:歡迎個(gè)人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。