蓝鸟加速器,色综合视频一区二区三区44

2024年5月AlphaFold 3問(wèn)世，在預(yù)測(cè)生物分子結(jié)構(gòu)方面再次升級(jí)，不僅提升了預(yù)測(cè)精度，其適用性也更加廣泛，很多人認(rèn)為這是具有里程碑意義的進(jìn)展。人工智能究竟是如何預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的，為什么它的準(zhǔn)確率如此之高？本文將簡(jiǎn)要介紹AlphaFold系列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的基本原理。

撰文 | 陳清揚(yáng)

神秘的蛋白質(zhì)折疊

提到蛋白質(zhì)，大家首先可能想到，它是一種人體必需的營(yíng)養(yǎng)素，也可能會(huì)想到煎蛋、牛排、或是一鍋美美的鯽魚豆腐湯。蛋白質(zhì)是美食的代名詞，更是生命功能的物質(zhì)基礎(chǔ)，處處發(fā)揮作用：負(fù)責(zé)運(yùn)送氧氣的血紅蛋白是蛋白質(zhì)；幫助我們消化食物的消化酶是蛋白質(zhì)；胰島素、甲狀腺素等激素是蛋白質(zhì)；參加免疫反應(yīng)的抗體也是蛋白質(zhì)……據(jù)估計(jì)，人體內(nèi)至少存在2萬(wàn)種不同類型的蛋白質(zhì)，這些蛋白質(zhì)的結(jié)構(gòu)和功能千差萬(wàn)別，但構(gòu)成它們的基本元素是一樣的——由20種氨基酸通過(guò)不同的排列組合而構(gòu)成，譬如胰島素就是由16種、51個(gè)氨基酸構(gòu)成的。

當(dāng)不同的氨基酸連成一串的時(shí)候，它們會(huì)脫水形成肽鏈，也就是蛋白質(zhì)的一級(jí)結(jié)構(gòu)；而這樣的一級(jí)結(jié)構(gòu)是不穩(wěn)定的，受到疏水作用、氫鍵和范德華力等影響，肽鏈最終會(huì)折疊成一個(gè)非常復(fù)雜而穩(wěn)定的三維結(jié)構(gòu)。圖1是一個(gè)蛋白質(zhì)折疊前后對(duì)比的例子。

圖1：蛋白質(zhì)折疊示意圖

蛋白質(zhì)折疊成何種結(jié)構(gòu)決定了它將具有何種功能，于是理解蛋白質(zhì)如何折疊就成了一個(gè)十分重要的研究課題，這便是“蛋白質(zhì)折疊問(wèn)題”。一個(gè)蛋白質(zhì)如果因?yàn)楦鞣N原因而沒(méi)有正確折疊，就有可能不會(huì)正常發(fā)揮其功能，從而引發(fā)疾病，阿爾茲海默病、帕金森等疾病都和蛋白質(zhì)的錯(cuò)誤折疊有關(guān)。此外，在藥物設(shè)計(jì)上面，研究人員常常需要開(kāi)發(fā)具有特定功能的蛋白質(zhì)，而這需要對(duì)蛋白質(zhì)折疊有深入理解。

1970年代，美國(guó)生物學(xué)家、諾貝爾獎(jiǎng)得主克里斯蒂安·安芬森（Christian B. Anfinsen）提出[1]：當(dāng)環(huán)境條件合適（溫度、pH值等）時(shí)，蛋白質(zhì)折疊后的穩(wěn)定三維結(jié)構(gòu)完全由其氨基酸序列決定。這就是影響深遠(yuǎn)的安芬森假說(shuō)（Anfinsen's dogma），它背后的深意是：盡管蛋白質(zhì)折疊的過(guò)程十分復(fù)雜，其中有各種力、分子的相互作用，但所有的信息竟然都包含在了其最初的氨基酸序列之中，這個(gè)過(guò)程又是如何發(fā)生的呢？于是“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題”，即給定蛋白質(zhì)的氨基酸序列，輸出其最終折疊后的三維結(jié)構(gòu)，成了分子生物學(xué)中的一座圣杯。

世界各地的生物學(xué)家拿起計(jì)算機(jī)這件強(qiáng)大武器，設(shè)計(jì)各路算法來(lái)追逐這座圣杯。這里有一個(gè)問(wèn)題：為什么不直接通過(guò)實(shí)驗(yàn)觀測(cè)蛋白質(zhì)來(lái)確定其空間結(jié)構(gòu)呢？事實(shí)上，自1970年代以來(lái)，通過(guò)實(shí)驗(yàn)方法來(lái)確定蛋白質(zhì)結(jié)構(gòu)在不斷進(jìn)步，精度不斷提高，特別是冷凍電鏡技術(shù)得到應(yīng)用后，結(jié)構(gòu)生物學(xué)得到了長(zhǎng)足的發(fā)展。通過(guò)實(shí)驗(yàn)方法確定的蛋白質(zhì)結(jié)構(gòu)也被認(rèn)為是標(biāo)準(zhǔn)答案。不過(guò)這些實(shí)驗(yàn)方法非常耗時(shí)耗力，據(jù)估計(jì)，用實(shí)驗(yàn)方法確定一個(gè)蛋白質(zhì)結(jié)構(gòu)需要10萬(wàn)美元和長(zhǎng)達(dá)數(shù)月的時(shí)間[2]。因此，如果能設(shè)計(jì)一個(gè)計(jì)算機(jī)算法來(lái)預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)，那將會(huì)大大地加速蛋白質(zhì)結(jié)構(gòu)的分析。并且計(jì)算機(jī)科學(xué)和算力的飛速發(fā)展也給生物學(xué)家們敞開(kāi)了一扇新的大門，但是，用計(jì)算機(jī)算法來(lái)做預(yù)測(cè)絕非易事。

計(jì)算機(jī)預(yù)測(cè)的兩種方式

使用計(jì)算機(jī)來(lái)對(duì)自然過(guò)程的結(jié)果進(jìn)行預(yù)測(cè)通常有兩種方式。第一種方式基于物理學(xué)，模擬計(jì)算分子運(yùn)動(dòng)過(guò)程，我們不妨稱之為“模擬派”。這種方式在科學(xué)計(jì)算領(lǐng)域有廣泛應(yīng)用，我們每天都看的天氣預(yù)報(bào)正是通過(guò)計(jì)算機(jī)來(lái)模擬大氣運(yùn)動(dòng)實(shí)現(xiàn)的。類似地，看過(guò)《三體》的讀者們一定都知道，三體運(yùn)動(dòng)不存在精確的解析解，但可以通過(guò)計(jì)算機(jī)進(jìn)行數(shù)值模擬：將連續(xù)的物理過(guò)程模擬成很多離散的小步，然后在每一小步計(jì)算出可以接受的近似解，依次迭代完成最終的模擬。然而，要高分辨率地模擬物理過(guò)程需要巨大的計(jì)算量。

在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域，F(xiàn)olding@Home便是一項(xiàng)知名的“模擬派”項(xiàng)目，它由斯坦福大學(xué)教授 Vijay Pande 于2000年發(fā)起，聯(lián)合全世界志愿者的計(jì)算機(jī)來(lái)構(gòu)成一個(gè)超大的分布式計(jì)算機(jī)，它同時(shí)也是全世界第一臺(tái) exaflops 級(jí)別（每秒進(jìn)行1018次雙精度浮點(diǎn)數(shù)計(jì)算）的超級(jí)計(jì)算機(jī)。這樣強(qiáng)大的算力使得 Folding@Home能夠?qū)Φ鞍踪|(zhì)折疊過(guò)程進(jìn)行原子級(jí)別的模擬，超出先前估計(jì)可模擬的時(shí)段數(shù)千倍，其成果已經(jīng)參與了200余篇科學(xué)論文的發(fā)表。

模擬法的優(yōu)勢(shì)在于它可以模擬出完整的、動(dòng)態(tài)的分子運(yùn)動(dòng)過(guò)程；但是另一方面，由于需要巨大的計(jì)算量，對(duì)于比較大的蛋白質(zhì)，模擬出最終的三維結(jié)構(gòu)需要非常長(zhǎng)的時(shí)間。不過(guò)，正是因?yàn)椤澳M派”試圖模擬蛋白質(zhì)折疊完全的過(guò)程，這使得他們的工作的意義遠(yuǎn)遠(yuǎn)不止預(yù)測(cè)最終的三維結(jié)構(gòu)。試想，若是計(jì)算機(jī)能將蛋白質(zhì)折疊完整的動(dòng)態(tài)過(guò)程如動(dòng)畫般展現(xiàn)出來(lái)，這對(duì)于科學(xué)家理解蛋白質(zhì)的錯(cuò)誤折疊和藥物設(shè)計(jì)都會(huì)有極大幫助。正因如此， Folding@Home在對(duì)于蛋白質(zhì)錯(cuò)誤折疊疾病的理解和治療上已經(jīng)做出了若干貢獻(xiàn)。

計(jì)算機(jī)預(yù)測(cè)自然過(guò)程的第二種方法是基于統(tǒng)計(jì)規(guī)律的預(yù)測(cè)，我們可以稱之為“統(tǒng)計(jì)派”?！敖y(tǒng)計(jì)派”不直接對(duì)物理過(guò)程進(jìn)行模擬，而是將其視作一個(gè)黑箱，通過(guò)對(duì)過(guò)往的輸入和輸出尋找規(guī)律，進(jìn)而對(duì)新的輸入進(jìn)行預(yù)測(cè)。換言之，這個(gè)過(guò)程是“數(shù)據(jù)驅(qū)動(dòng)”的，首先需要有過(guò)往歷史數(shù)據(jù)，然后從數(shù)據(jù)中尋找規(guī)律。因?yàn)椴恍枰M黑箱中完整的物理過(guò)程，“統(tǒng)計(jì)派”顯然比“模擬派”在計(jì)算上更高效。還是以天氣預(yù)報(bào)作為例子，“統(tǒng)計(jì)派”從過(guò)往的天氣中來(lái)尋找規(guī)律和特征，運(yùn)用數(shù)理統(tǒng)計(jì)方法對(duì)未來(lái)做出預(yù)報(bào)，這就是天氣預(yù)報(bào)中的數(shù)理統(tǒng)計(jì)預(yù)報(bào)法。

然而對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題，想要精確地找出輸入輸出之間的規(guī)律也十分困難，因?yàn)槔碚撋先我鈨蓚€(gè)氨基酸之間都可能發(fā)生相互作用，其中的物理化學(xué)過(guò)程十分復(fù)雜。此外，“統(tǒng)計(jì)派”還有一個(gè)致命的難點(diǎn)在于，當(dāng)過(guò)往數(shù)據(jù)中缺乏與當(dāng)前輸入類似的輸入時(shí)，預(yù)測(cè)將會(huì)變得更加困難。

AlphaFold為何如此耀眼？

“統(tǒng)計(jì)派”的一大巨作便是DeepMind公司開(kāi)發(fā)的AlphaFold了。其實(shí)在AlphaFold橫空出世之前，其他的預(yù)測(cè)算法（如 Rosetta@Home）也一直在進(jìn)步，準(zhǔn)確率不斷提升，然而AlphaFold的光芒實(shí)在太耀眼，以至于前人算法的進(jìn)步顯得十分暗淡。

2020年，AlphaFold 2參加了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)關(guān)鍵測(cè)試（CASP）比賽。這是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)界的奧林匹克競(jìng)賽，來(lái)自世界各地的參賽團(tuán)隊(duì)會(huì)拿到未知結(jié)構(gòu)的蛋白質(zhì)的氨基酸序列，然后使用自己的算法預(yù)測(cè)其三維結(jié)構(gòu)，最后和實(shí)驗(yàn)測(cè)定結(jié)果進(jìn)行比較，相似度越高分?jǐn)?shù)就越高。在這一年的比賽中，AlphaFold 2取得了中位數(shù)分?jǐn)?shù)92.4分（滿分100分；90分以上被認(rèn)為預(yù)測(cè)方法可與實(shí)驗(yàn)方法媲美）的高分預(yù)測(cè)結(jié)果，它預(yù)測(cè)的蛋白質(zhì)三維結(jié)構(gòu)和最后實(shí)驗(yàn)觀測(cè)的標(biāo)準(zhǔn)答案，僅有原子大小尺度的差異！這樣出色的成績(jī)以至于讓很多人認(rèn)為，這個(gè)困擾了生物學(xué)界50年的問(wèn)題就這樣被解決了！當(dāng)然，“圣杯”不會(huì)那么容易被拿下，但生物學(xué)家迎來(lái)了一件利器。

AlphaFold是怎么做到如此準(zhǔn)確的預(yù)測(cè)的呢？它的核心武器就是深度學(xué)習(xí)。深度學(xué)習(xí)是一種從2010年代開(kāi)始蓬勃發(fā)展的機(jī)器學(xué)習(xí)技術(shù)，它通過(guò)建立多層的神經(jīng)網(wǎng)絡(luò)來(lái)模擬人腦的學(xué)習(xí)方式，具有強(qiáng)大的泛化能力和表達(dá)能力，能夠自動(dòng)地從過(guò)往數(shù)據(jù)中學(xué)習(xí)復(fù)雜的模式與特征，以此對(duì)于新輸入進(jìn)行精準(zhǔn)預(yù)測(cè)。事實(shí)上，在2018年的CASP比賽中AlphaFold便已經(jīng)參賽并奪得頭籌，不過(guò)那時(shí)還尚未達(dá)到如此高的預(yù)測(cè)準(zhǔn)確率。

不過(guò)，AlphaFold 2同樣也面臨諸多挑戰(zhàn)。首先，深度學(xué)習(xí)通常需要龐大的數(shù)據(jù)集來(lái)進(jìn)行學(xué)習(xí)，而當(dāng)時(shí)的蛋白質(zhì)數(shù)據(jù)庫(kù)（Protein Data Bank）中只有大約17萬(wàn)條蛋白質(zhì)數(shù)據(jù)。這聽(tīng)起來(lái)似乎已經(jīng)不少了，但是我們橫向?qū)Ρ纫幌戮椭肋@個(gè)數(shù)據(jù)量有多么捉襟見(jiàn)肘：同樣是在2020年訓(xùn)練的語(yǔ)言模型GPT-3使用了3000億個(gè)token（可以理解為“詞”）作為數(shù)據(jù)集，這可比17萬(wàn)大了許多個(gè)數(shù)量級(jí)。其次，AlphaFold 2預(yù)測(cè)出的三維結(jié)構(gòu)要遵循基本的空間幾何規(guī)律。從分子結(jié)構(gòu)來(lái)說(shuō)，三個(gè)原子所構(gòu)成的三角形應(yīng)該遵循兩邊之和大于第三邊的基本規(guī)律，而這樣的規(guī)律又應(yīng)該如何與機(jī)器學(xué)習(xí)模型訓(xùn)練的過(guò)程結(jié)合起來(lái)？換言之，如何讓機(jī)器在有限的數(shù)據(jù)集中習(xí)得這些知識(shí)呢？

AlphaFold預(yù)測(cè)蛋白質(zhì)基本原理

圖2是AlphaFold 2深度學(xué)習(xí)模型架構(gòu)示意圖。最左邊的輸入表示需要被預(yù)測(cè)結(jié)構(gòu)的序列（input sequence）；旁邊畫了一個(gè)小人，代表人類的某種蛋白質(zhì)。

圖2：AlphaFold 2深度學(xué)習(xí)模型架構(gòu)圖

接下來(lái)，這個(gè)輸入序列被轉(zhuǎn)換成兩種不同的信息，傳入后面的神經(jīng)網(wǎng)絡(luò)進(jìn)行迭代和學(xué)習(xí)。第一個(gè)信息，上面的“MSA”是多序列對(duì)比（Mutiple Sequence Alignment）的縮寫，意思是說(shuō)，我們從一個(gè)現(xiàn)有的基因數(shù)據(jù)庫(kù)中搜索出與當(dāng)前輸入序列最接近的一些序列進(jìn)行對(duì)比。當(dāng)然，搜出來(lái)的這些序列不一定是存在于人體中的，圖中就舉例了三個(gè)類似的序列，分別畫上了魚、兔子和雞，代表其來(lái)自相應(yīng)的生物體。搜索這些類似的氨基酸序列有什么用呢？這是因?yàn)樯飳W(xué)里有一些基本的遺傳規(guī)律，通過(guò)觀察其他存在的相似的序列，我們可以推測(cè)兩個(gè)氨基酸之間是否存在關(guān)聯(lián)，而這對(duì)于預(yù)測(cè)最終的三維結(jié)構(gòu)是非常有用的信息。舉個(gè)例子，我們可能發(fā)現(xiàn)某兩個(gè)氨基酸（譬如一個(gè)在序列首位、一個(gè)在末尾）總是成對(duì)地出現(xiàn)突變（mutation），這就意味著它們倆在最后的三維結(jié)構(gòu)中會(huì)有某種關(guān)聯(lián)。

在基因數(shù)據(jù)庫(kù)中搜出來(lái)了以后，MSA信息會(huì)被轉(zhuǎn)換成一個(gè)矩陣，也就是圖片中橙色的矩陣（MSA representation）。這個(gè)矩陣的維度是（s，r，c），s代表序列數(shù)，r代表氨基酸序列的長(zhǎng)度，c代表氨基酸embedding的長(zhǎng)度，相當(dāng)于我們用一個(gè)向量來(lái)表示一個(gè)氨基酸，其長(zhǎng)度就是c。這個(gè)MSA representation矩陣在模型的訓(xùn)練過(guò)程中會(huì)被反復(fù)迭代和更新。

第二個(gè)用來(lái)學(xué)習(xí)和迭代的信息是圖2中的“Pair Representation”，它是一個(gè)維度為（r，r，c）的矩陣，相當(dāng)于把輸入序列橫著和豎著排列起來(lái)（行和列），形成一個(gè)正方形的矩陣；而元素（i，j）代表氨基酸i和氨基酸j之間的空間關(guān)系，如距離、角度等，用一個(gè)長(zhǎng)度為c的向量來(lái)表示。換言之，這里用了兩個(gè)不同的矩陣，一個(gè)是MSA，代表生物演化信息；另一個(gè)是Pair，代表空間幾何信息。在模型訓(xùn)練的過(guò)程中，這二者相輔相成、相互更新，使得模型能夠充分融合、匯總兩者包含的信息。

MSA和Pair Representation被傳入Evoformer模塊中進(jìn)行更新，圖3是DeepMind論文中提供的Evoformer展開(kāi)圖。如它的名字所暗示，Evoformer是Transformer的一個(gè)變種，即在普通的Transformer模塊里加入了各種MSA與Pair representation相互融合的操作，以及一些特定的模塊使得機(jī)器能夠習(xí)得空間幾何關(guān)系，等等。關(guān)于Transformer已經(jīng)有許多介紹，這是一種十分強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)，特別擅長(zhǎng)捕捉長(zhǎng)序列的上下文關(guān)系（long-range dependency），ChatGPT名字里的T正是Transformer。

圖3：Evoformer模塊展開(kāi)圖

Transformer的核心是一種被稱為自注意力（Self-Attention）的機(jī)制，它使得模型能夠?qū)W習(xí)出一段序列中每一個(gè)元素和其他元素的相關(guān)程度的高低。在語(yǔ)言模型的應(yīng)用中，它能幫助模型學(xué)習(xí)到一句話中每一個(gè)詞和其他詞的相關(guān)性。在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的應(yīng)用中，輸入的氨基酸序列恰恰也是一種序列——氨基酸按順序排列在一起，互相之間可以發(fā)生相互作用，這使得自注意力機(jī)制十分適用于這個(gè)場(chǎng)合。這也充分顯示了Transformer的通用性，只要是可以表示為序列的數(shù)據(jù)，不管是文字、語(yǔ)音、圖像，還是蛋白質(zhì)序列，都可以使用Transformer來(lái)捕捉上下文信息。

原始的Transformer處理的是文字這種一維的序列，而AlphaFold兩種不同的輸入（MSA和Pair representation）都是二維的矩陣，于是在Evoformer模塊中，自注意力是以軸向注意力（Axial attention）的方式被使用，它是自注意力的一個(gè)變種，適用于對(duì)超過(guò)一維的數(shù)據(jù)進(jìn)行上下文捕捉，即每次按某一個(gè)軸來(lái)進(jìn)行那個(gè)維度上的自注意力計(jì)算。對(duì)于矩陣（二維）而言，是按行（row-wise）和列（column-wise）進(jìn)行自注意力計(jì)算。

Evoformer模塊里還包括了若干用來(lái)滿足三角不等式（即三角形的兩邊之和大于第三邊）的模塊，譬如Triangle multiplicative update（黃色框）和Triangle self-attention（粉紅色框），兩者皆可用來(lái)幫助模型學(xué)習(xí)到三角不等關(guān)系。前者需要的計(jì)算量更小，但AlphaFold 2團(tuán)隊(duì)發(fā)現(xiàn)，兩者一起用預(yù)測(cè)準(zhǔn)確率更好。這樣的Evoformer模塊一共有48個(gè)，使得模型可以一層一層地學(xué)到深層次的特征模式，在此過(guò)程中，不斷地更新MSA和pair representation，使得它們能夠表征更加豐富、準(zhǔn)確的特征信息。

我們前面提到，Alphafold 2的挑戰(zhàn)之一就是數(shù)據(jù)集比較小。研究人員的解決方案是，除了將MSA等演化相關(guān)的先驗(yàn)的人工知識(shí)嵌入到神經(jīng)網(wǎng)絡(luò)之中以外，還使用了一些擴(kuò)充數(shù)據(jù)集的技術(shù)，如Self-Distillation——他們使用了一個(gè)未標(biāo)注的、具有約35萬(wàn)條氨基酸序列的新數(shù)據(jù)集Uniclust30，并使用AlphaFold 2對(duì)其進(jìn)行預(yù)測(cè)，然后通過(guò)將其中高置信度的預(yù)測(cè)結(jié)果加入到原始PDB數(shù)據(jù)集中，形成了一個(gè)擴(kuò)充后的新數(shù)據(jù)集，然后在這個(gè)新的數(shù)據(jù)集上對(duì)模型進(jìn)行重新訓(xùn)練，這樣做也提升了最后的預(yù)測(cè)準(zhǔn)確率。

總體而言，在訓(xùn)練集不是很大的情況下，AlphaFold 2的一大設(shè)計(jì)挑戰(zhàn)就是將人工的知識(shí)和模型學(xué)習(xí)的過(guò)程有機(jī)地融合在一起。AlphaFold 2也很好地應(yīng)對(duì)了這個(gè)挑戰(zhàn)，最后模型取得了出色的預(yù)測(cè)效果，掀起了一場(chǎng)生物信息學(xué)的革命。

更通用的AlphaFold 3

AlphaFold的腳步并沒(méi)有止步于AlphaFold 2，就在2024年5月，DeepMind推出AlphaFold 3，再次引起業(yè)界轟動(dòng)。AlphaFold 3不僅僅能夠預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)，也能預(yù)測(cè)更廣泛的生物分子復(fù)合物的結(jié)構(gòu)（包括蛋白質(zhì)、核酸、配體等），以及生物分子之間的相互作用。有趣的是，盡管AlphaFold 3對(duì)于預(yù)測(cè)精度和廣度都有提升，它自身的模型架構(gòu)相比AlphaFold 2卻更加簡(jiǎn)化而且通用了。AlphaFold 2雖然使用了Transformer這種通用的模型，但同時(shí)它也加入了許多工程化的細(xì)節(jié)去提升最后預(yù)測(cè)的結(jié)果。而在AlphaFold 3中，工程化的細(xì)節(jié)得到了簡(jiǎn)化，取而代之的是更強(qiáng)大、更通用的模塊。譬如AlphaFold 3大大降低了對(duì)于MSA的使用和依賴，而主要使用Pair representation進(jìn)行學(xué)習(xí)。AlphaFold 2中的核心模塊——Evoformer的數(shù)量在AlphaFold 3中被減到了4個(gè)；同時(shí)AlphaFold 3也增加了一個(gè)新的模塊Pairformer，而這個(gè)模塊只對(duì)Pair representation進(jìn)行更新，其數(shù)量是48個(gè)。這樣的設(shè)計(jì)是為何呢？如我們前文所述，MSA中保存的是從基因數(shù)據(jù)庫(kù)中搜出來(lái)的氨基酸序列，其包含了蛋白質(zhì)演化信息，而Pair representation包含的是空間幾何信息。毫無(wú)疑問(wèn)，后者是一種更加通用的表達(dá)方式，它不僅限于蛋白質(zhì)這一種分子，也適用于配體等其他分子。因此，降低對(duì)MSA的依賴而加強(qiáng)對(duì)Pair representation的學(xué)習(xí)與更新能使得模塊更加通用化、能處理更多不同類型的輸入，這也正是AlphaFold 3的目標(biāo)。

AlphaFold 3另一通用化的設(shè)計(jì)在其結(jié)構(gòu)模塊（structure module），即從Pair representation生成最終的三維結(jié)構(gòu)圖。上一代的AlphaFold 2把蛋白質(zhì)最終的三維結(jié)構(gòu)視為一系列由氨基酸殘基構(gòu)成的三角形在空間中的旋轉(zhuǎn)和平移構(gòu)成的主干框架（backbone frames）以及側(cè)鏈的扭轉(zhuǎn)（side-chain torsion），通過(guò)讓模型計(jì)算出這些三角形的旋轉(zhuǎn)角度、平移大小以及側(cè)鏈的扭轉(zhuǎn)角度來(lái)得出最終的蛋白質(zhì)三維圖像，這其中的技術(shù)細(xì)節(jié)十分復(fù)雜。而AlphaFold 3刪繁就簡(jiǎn)，模型架構(gòu)中不再手動(dòng)地編入三角形、旋轉(zhuǎn)、平移等概念，而是直接采用了一個(gè)標(biāo)準(zhǔn)的擴(kuò)散模塊（diffusion module），這個(gè)擴(kuò)散模塊將直接預(yù)測(cè)每一個(gè)原子在三維結(jié)構(gòu)中的坐標(biāo)，這也使得AlphaFold 3不再僅僅局限于蛋白質(zhì)這一種分子的結(jié)構(gòu)預(yù)測(cè)了。令人驚奇的是，盡管AlphaFold 3在模型架構(gòu)中去掉了許多“蛋白質(zhì)特定”的部分，其在“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”這一問(wèn)題上的預(yù)測(cè)結(jié)果竟然也超越了AlphaFold 2。這似乎意味著，當(dāng)模型走向通用化的時(shí)候，它以自己的方式從更加多樣化的輸入和任務(wù)中學(xué)習(xí)到了一些更本質(zhì)的物理、化學(xué)規(guī)律，其海量的矩陣中，似乎包含了對(duì)我們所生活的世界更精準(zhǔn)的認(rèn)知。而這些更廣博的知識(shí)也使得AlphaFold 3在專項(xiàng)任務(wù)上的表現(xiàn)更加出色。

最后總結(jié)一下，AlphaFold系列通過(guò)精準(zhǔn)預(yù)測(cè)出最終的蛋白質(zhì)結(jié)構(gòu)，成為科研工作者的有力幫手；也再次證明了深度學(xué)習(xí)從數(shù)據(jù)中學(xué)習(xí)復(fù)雜模式的能力，借此AI變得更加智能與多任務(wù)化。盡管如此，人類對(duì)于蛋白質(zhì)折疊完整的動(dòng)態(tài)過(guò)程和機(jī)理仍然需要更多的理解，但AlphaFold已經(jīng)成為了AI推動(dòng)科學(xué)發(fā)展的一座里程碑，而愈發(fā)強(qiáng)大的AI對(duì)于科學(xué)研究的助力還將繼續(xù)。

特別提示

1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“，可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào)，回復(fù)四位數(shù)組成的年份+月份，如“1903”，可獲取2019年3月的文章索引，以此類推。

版權(quán)說(shuō)明：歡迎個(gè)人轉(zhuǎn)發(fā)，任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán)，不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。

破解困擾生物學(xué)界50年的問(wèn)題，AlphaFold靠的什么“法寶”？

破解困擾生物學(xué)界50年的問(wèn)題，AlphaFold靠的什么“法寶”？