版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

從哈佛哲學系到蛋白質(zhì)設(shè)計大師,David Baker:AlphaFold令我深刻認識到深度學習的力量

HyperAI超神經(jīng)
原創(chuàng)
人工智能說明書,了解 AI 的功效和副作用。
收藏

要說誰是引領(lǐng)蛋白質(zhì)設(shè)計的世界級大師,美國華盛頓大學的 David Baker 教授可謂是當之無愧,作為該領(lǐng)域的頂級專家,Baker 在蛋白質(zhì)方向發(fā)表研究論文 700 余篇,引用量累計超 17.7 萬。今年 10 月,因其在蛋白質(zhì)設(shè)計方面的卓越貢獻,Baker 還被授予 2024 年諾貝爾化學獎,他在學術(shù)界的影響力可見一斑。
**然而,Baker 的影響力遠不止于此。在工業(yè)界,他的名字同樣如雷貫耳。**據(jù)華盛頓大學蛋白質(zhì)設(shè)計研究所官網(wǎng)顯示, 由 Baker 作為創(chuàng)始人直接參與的公司就有 21 家。今年 4 月,他聯(lián)合創(chuàng)辦的 AI 制藥企業(yè) Xaira Therapeutics 不僅吸引了 2022 年諾貝爾化學獎得主 Carolyn Bertozzi 的加盟,更是獲得 10 億美元的巨額融資,占據(jù)全球 Q2 融資榜首位,連紅杉資本、ARCH Venture Partners 等投資界的巨頭也紛紛為其背書。

David Baker,一個在學術(shù)界桃李滿天下,又在工業(yè)界取得非凡成就的科學家,他的成長歷程和成功秘訣究竟是什么?


慶祝 David Baker 獲諾獎
圖源:Institute for Protein Design

從興趣出發(fā),集合全世界力量攻克難關(guān)

David Baker 于 1962 年 10 月 6 日出生在美國華盛頓州西雅圖的一個猶太家庭,父母分別是物理學家和地球物理學家,盡管如此,Baker 最初對科學并不感興趣,他在哈佛大學本科階段主修哲學和社會研究,但如今回想起來,他認為「那完全是浪費時間,很多談話都毫無意義。」

大學的最后一年,Baker 選修了發(fā)育生物學課程,在這里,他見證了一個神奇的實驗:加入蛋白變性劑后,RNA 酶失去了切割 RNA 的活性,但當溶液中的變性劑被蒸發(fā)后,RNA 酶的活性竟奇跡般地恢復了。蛋白質(zhì)是如何在一瞬間自主找到正確的構(gòu)象并發(fā)揮功能?**這種對科學問題明確答案的追求,比哲學的模糊性更讓他感到興奮。**于是,他開始閱讀《細胞分子生物學》這本經(jīng)典教材,并對生物學愈發(fā)著迷。

之后,Baker 加入諾貝爾生理學或醫(yī)學獎得主 Randy Schekman 的實驗室,在 1989 年獲得了加州大學伯克利分校的生物化學博士學位。

博士畢業(yè)后,Baker 進入加州大學舊金山分校 David Agard 教授的實驗室,開始了他的博士后研究。在那里,他嘗試用計算機解析晶體結(jié)構(gòu),并萌生了用計算機預測蛋白質(zhì)結(jié)構(gòu)的想法。「我博士后期間所在的結(jié)構(gòu)生物學實驗室里有一間專門用于解析晶體結(jié)構(gòu)的房間,每個人都在計算機終端前忙碌,將氨基酸鏈與電子密度圖進行匹配。我坐下來,試著做了 3 分鐘,感到頭痛欲裂。這讓我意識到,我做不來這樣的事,我想要用計算機去做一些更有意義的事情。」

帶著這個問題,1993 年,Baker 回到家鄉(xiāng)西雅圖的華盛頓大學,開始研發(fā)一種能夠根據(jù)氨基酸序列預測蛋白質(zhì)結(jié)構(gòu)的軟件,也就是后來備受歡迎的 Rosetta。此外,Baker 還在華盛頓大學遇到了他的夫人 Hannele Ruohola-Baker,Hannele Ruohola-Baker 是華盛頓大學的一名生物化學教授,兩人共育一兒一女。


左側(cè)為 Baker 和 Hannele Ruohola-Baker

1998 年,Rosetta 正式發(fā)布。基于物理學原理,Rosetta 可以對蛋白質(zhì)的構(gòu)象進行能量最小化計算,以預測最穩(wěn)定的三維結(jié)構(gòu),即接近自然狀態(tài)下的蛋白質(zhì)穩(wěn)定構(gòu)象。為了驗證 Rosetta 在蛋白質(zhì)結(jié)構(gòu)預測中的表現(xiàn),Baker 團隊積極參與了 CASP 競賽。在該競賽中,參賽者會對一批蛋白質(zhì)結(jié)構(gòu)進行盲測預測,這些蛋白質(zhì)的結(jié)構(gòu)已經(jīng)通過實驗解析但尚未公開,以此評估不同算法的準確性。此后,Rosetta 逐漸在 CASP 中嶄露頭角,在 2004 年的 CASP6 上更是創(chuàng)造了歷史,針對目標蛋白 T0281,Rosetta 首次實現(xiàn)了接近原子級精度的 ab initio 蛋白質(zhì)結(jié)構(gòu)預測,一度成為蛋白質(zhì)結(jié)構(gòu)預測領(lǐng)域的領(lǐng)導者。

然而,更準確的預測意味著更多計算資源的消耗?!肝覀冮_始做蛋白質(zhì)結(jié)構(gòu)預測時,發(fā)現(xiàn)這項工作需要大量的計算資源。我們不斷購買新計算機,不僅花費巨大,而且很快就沒有足夠的空間來放置它們。因此,我們啟動了 Rosetta@home 項目,邀請全球各地的人們用他們閑置的算力來進行蛋白結(jié)構(gòu)計算。這是一個屏幕保護程序,當計算機進行計算時,屏幕上會顯示正在折疊的蛋白質(zhì)?!笲aker 表示。

現(xiàn)如今,Rosetta 已在學術(shù)和工業(yè)環(huán)境中得到了廣泛采用,成為結(jié)構(gòu)生物學和藥物發(fā)現(xiàn)的標準工具,為了持續(xù)改進 Rosetta 軟件,Baker 還特意創(chuàng)建了一個學術(shù)社區(qū)——Rosetta Commons,這個社區(qū)匯聚了來自全球 60 多個機構(gòu)的學者,涵蓋化學、生物學、生理學、物理學、工程學、數(shù)學和計算機科學等多個領(lǐng)域,每年,社區(qū)都會舉辦會議,成員間互相分享成果,交流想法,如今,Rosetta Commons 已成為一個大規(guī)模的國際合作項目。


Rosetta@home

從 Rosetta@home 項目中得到啟發(fā),Baker 深刻認識到「人海戰(zhàn)術(shù)」的重要性,想要在一個未知領(lǐng)域快速得到突破性進展,合作共贏才是長久之道。2008 年,Baker 的團隊正式推出 Foldit,這是一款關(guān)于蛋白質(zhì)折疊的在線益智游戲,專業(yè)人士和非專業(yè)人士都可以參與。Baker 表示:「我們的夢想是,世界各地的人們共同努力,為科學和全球健康做出重大貢獻?!?/p>

在 Foldit 中,玩家使用游戲中的工具盡可能完美地折疊選定的蛋白質(zhì)結(jié)構(gòu),得分最高的方案將由研究人員分析,評估其在現(xiàn)實中的適用性,進而應(yīng)用于靶向治療等。值得一提的是,F(xiàn)oldit 吸引了超過 40 萬人參與,一些玩家還被列為 Baker 論文中的貢獻者。比如,2011 年被 Nature 錄用的一篇論文中,F(xiàn)oldit 的玩家就幫助破解了 M-PMV 逆轉(zhuǎn)錄病毒蛋白酶的晶體結(jié)構(gòu),這種病毒已經(jīng)困擾科學家長達 15 年,而玩家僅用 10 天就構(gòu)建出了足夠準確的酶 3D 模型,以成功進行分子替換和隨后的結(jié)構(gòu)測定。


Foldit

此后多年,Rosetta 和 Foldit 在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域備受歡迎,如果按照這種趨勢持續(xù)發(fā)展下去,今年諾貝爾化學獎的另一半「蛋白質(zhì)結(jié)構(gòu)預測方面的貢獻」可能就不會授予 Demis Hassabis 和 John Jumper 了,一切的轉(zhuǎn)折點出現(xiàn)在 2020 年底。
用開源回應(yīng) AlphaFold2

在 2020 年 11 月舉行的第 14 屆 CASP 大賽中,AlphaFold2「橫空出世」,作為當年入選 Science 年度十大突破的重大成果,AlphaFold2 預測蛋白質(zhì)結(jié)構(gòu)準確性直接碾壓其它所有團隊,Baker 團隊帶來的 Rosetta 也「望塵莫及」。主辦方更是直接宣布,AlphaFold 2 成功解決了一個困擾科學家 50 年的難題。


第一位 AlphaFold2,第二位 Rosetta

與 Rosetta 更側(cè)重于基于物理原理的方法、通過計算能量最小化來預測蛋白質(zhì)結(jié)構(gòu)不同,AlphaFold2 將深度學習與物理、生物等相關(guān)領(lǐng)域知識結(jié)合,實現(xiàn)了端到端的蛋白質(zhì)三維結(jié)構(gòu)信息預測,這一成果在科學界引起了巨大震動,被譽為蛋白質(zhì)研究的里程碑。然而,DeepMind 當時并未公開 AlphaFold2 的具體細節(jié)。

對此,Baker 表示,「所有人都驚呆了,先是有很多媒體報道,然后就沒消息了,我們的領(lǐng)域取得了重大進展,但自己卻不能在此基礎(chǔ)上繼續(xù)發(fā)展,這很奇怪。」

和他的老師 Randy Schekman 一樣,Baker 崇尚的是科學的開源、共享,當初他的老師選擇對三大期刊「宣戰(zhàn)」,Baker 則立志研發(fā)一個能夠與 AlphaFold2 媲美的開源模型。
*Randy Schekman 提倡開放、免費獲取科學文獻,對 Nature、Science、Cell 這種封閉式訪問期刊大力批評,并宣布永不向上述期刊投稿


圖源:維基百科

**借鑒 AlphaFold2,Baker 和實驗室的其他成員一起努力了數(shù)月,發(fā)布了深度學習模型 RoseTTAFold。**RoseTTAFold 采用獨特的三軌 (three-track) 神經(jīng)網(wǎng)絡(luò)架構(gòu),能夠同時考慮蛋白質(zhì)的序列模式、氨基酸相互作用以及可能的三維結(jié)構(gòu),其中,一維、二維和三維信息相互流動,使神經(jīng)網(wǎng)絡(luò)能夠推理出蛋白質(zhì)的化學組成與其折疊結(jié)構(gòu)之間的關(guān)系。利用 RoseTTAFold,研究人員計算了數(shù)百種新的蛋白質(zhì)結(jié)構(gòu),包括人類基因組中許多未知的蛋白質(zhì),他們還生成了與人類健康直接相關(guān)的蛋白質(zhì),比如與炎癥疾病和癌細胞生長相關(guān)的蛋白質(zhì)。

值得一提的是,RoseTTAFold 的計算耗能和時間都低于 AlphaFold2,只需一塊 RTX 2080 顯卡,就能在短短 10 分鐘內(nèi)計算出 400 個氨基酸殘基以內(nèi)的蛋白質(zhì)結(jié)構(gòu)。研究人員指出,「如果不使用這類軟件,一個科學家團隊可能需要幾年時間才能確定一種蛋白質(zhì)結(jié)構(gòu)?!笲aker 明白,是時候公開 RoseTTAFold 了。

2021 年 6 月,Baker 公布了詳細介紹 RoseTTAFold 技術(shù)路線的預印版論文。幾天后,DeepMind 首席執(zhí)行官 Demis Hassabis 在推特上宣布,他們將公布 AlphaFold2 的論文和源代碼。同年 7 月 15 日,RoseTTAFold 和 AlphaFold2 的相關(guān)論文分別發(fā)表于 Science 和 Nature,Science 雜志還將 RoseTTAFold 和 AlphaFold 共同評為 2021 年度突破技術(shù),這場學術(shù)界與商業(yè)界的 PK 終于完美結(jié)束。


圖源:Demis Hassabis 社交平臺

做有挑戰(zhàn)的事!將深度學習引入蛋白質(zhì)設(shè)計

今年諾貝爾化學獎的消息公布后,相關(guān)人員對 Baker 進行了簡短的電話采訪,當被問及如何看待 RoseTTAFold 和 AlphaFold 的相互競爭關(guān)系時,Baker 表示,他自己從未覺得和 DeepMind 是競爭對手。


Baker 獲諾貝爾獎后接受線上采訪
圖源:華盛頓大學蛋白質(zhì)設(shè)計研究所

「多年來,我們一直在開發(fā)基于物理的蛋白質(zhì)結(jié)構(gòu)預測和設(shè)計方法。但當 John 和 Demis 開發(fā) AlphaFold2 時,我深刻認識到了深度學習的力量,他們是深度學習力量的偉大啟發(fā)者?!巩斎?,借助這股力量,Baker 不僅將深度學習用于蛋白質(zhì)結(jié)構(gòu)預測上,推出了 RoseTTAFold,還將其用于蛋白質(zhì)設(shè)計上。
Baker 的學生沈浩認為他的老師「有一種勇于創(chuàng)新、邁大步往前走的勁兒」,專注于做重要且極具挑戰(zhàn)的事情,比如,設(shè)計全新的蛋白質(zhì)。在 Baker 看來,人類面臨許多新的緊迫問題,因壽命延長而產(chǎn)生的新疾病、環(huán)境污染等,如果等待自然進化來解決問題,可能需要數(shù)百萬年時間,但通過蛋白質(zhì)設(shè)計,我們可以迅速開發(fā)出解決當前問題的新蛋白質(zhì)。

事實上,很早之前,Baker 的團隊就想到,既然可以將氨基酸序列輸入 Rosetta 來預測蛋白質(zhì)結(jié)構(gòu),那么是否可以反向使用軟件,輸入一個期望的蛋白質(zhì)結(jié)構(gòu),得到相應(yīng)的氨基酸序列建議,并將設(shè)計的序列基因引入細菌中,使細菌生產(chǎn)出所需的蛋白質(zhì)?

基于此,**2003 年,Baker 的團隊成功設(shè)計出世界上第一個全新蛋白質(zhì) Top7,**這個突破性發(fā)現(xiàn)極大地鼓舞了相關(guān)領(lǐng)域的研究。

同樣地,在意識到深度學習對于蛋白質(zhì)設(shè)計的巨大潛力后,Baker 也開始思考:反向使用深度學習是否可以為設(shè)計功能性新蛋白質(zhì)生成氨基酸序列?圍繞此課題,他帶領(lǐng)團隊研發(fā)了一系列成果。

Baker 曾在 Nature 期刊發(fā)表了一篇題為「De novo design of protein structure and function with RFdiffusion」的論文,研究人員在蛋白質(zhì)結(jié)構(gòu)去噪任務(wù)中對 RoseTTAFold 結(jié)構(gòu)預測網(wǎng)絡(luò)進行微調(diào),**開發(fā)了一個生成模型 RFdiffusion,**該模型在蛋白質(zhì)結(jié)合劑設(shè)計、酶活性位點支架設(shè)計等方面表現(xiàn)出色,更重要的是,模型具備極好的通用性,且已開源。

與此同時,為了拓展 RFdiffusion 的能力,**Baker 還開發(fā)了一種基于深度學習的蛋白質(zhì)序列設(shè)計方法 ProteinMPNN,**ProteinMPNN 將蛋白質(zhì)結(jié)構(gòu)作為輸入,1 秒即可生成能折疊成對應(yīng)骨架的新氨基酸序列。結(jié)合像 RFdiffusion 這樣的結(jié)構(gòu)生成工具,它可以用于設(shè)計具有前所未見的序列、結(jié)構(gòu)和功能的蛋白質(zhì)。此外,研究還表明,在天然蛋白質(zhì)骨架上,ProteinMPNN 的序列恢復率為 52.4%,而過去基于 Rosetta 的物理設(shè)計僅為 32.9%。該研究以「Robust deep learning–based protein sequence design using ProteinMPNN」為題,被 Science 錄用。
**此外,Baker 的團隊還對前面提到的結(jié)構(gòu)預測工具 Rosetta 和 Foldit 進行了優(yōu)化,**通過在軟件內(nèi)引入新的模塊和算法,兩者不僅僅局限于蛋白質(zhì)結(jié)構(gòu)預測,還拓展到了抗體設(shè)計、酶設(shè)計和小分子對接等方面。對此,Baker 表示,「Foldit 最初創(chuàng)建時是做蛋白質(zhì)結(jié)構(gòu)預測的,但是現(xiàn)在已經(jīng)轉(zhuǎn)向了蛋白質(zhì)設(shè)計。我們會不斷為玩家更新關(guān)卡,隨著我們研究興趣的改變,它也會不斷變化?!?/p>


Baker 課題組合影

**將 AI 技術(shù)與物理方法結(jié)合,Baker 的實驗室創(chuàng)造了許多新型蛋白質(zhì),**例如能夠中和病毒、靶向癌細胞,甚至作為化學反應(yīng)催化劑的蛋白質(zhì)。此外,Baker 還在設(shè)計能與無機材料結(jié)合的蛋白質(zhì),探索利用蛋白質(zhì)調(diào)控無機晶體生長的可能性,這一研究有望應(yīng)用于半導體制造等領(lǐng)域。

以成立公司的方式推動技術(shù)落地

Baker 的老師 David Agard 曾評價,「David Baker 的工作幾乎一手推動了蛋白質(zhì)設(shè)計領(lǐng)域的發(fā)展?!勾_實如此,2024 年還未結(jié)束,Baker 就已經(jīng)發(fā)表了 110 余篇論文,這些成果數(shù)量相當不可思議。但更令人驚訝的是,每當 Baker 認為他所研究的技術(shù)基本成熟時,就會成立一家新公司、或者投入過往創(chuàng)立的公司來孵化,進而推動技術(shù)的產(chǎn)業(yè)化落地。據(jù)華盛頓大學蛋白質(zhì)設(shè)計研究所官網(wǎng)顯示,Baker 作為創(chuàng)始人直接參與的公司就有 21 家,此外,他還以顧問的身份參與其他公司的運營。


圖源:華盛頓大學蛋白質(zhì)設(shè)計研究所
David Baker 任創(chuàng)始人/聯(lián)合創(chuàng)始人/科學聯(lián)合創(chuàng)始人

**具體來說,今年 4 月剛成立的 Xaira Therapeutics 公司就應(yīng)用了前面提到的 RFdiffusion 和 ProteinMPNN。**該公司致力于通過新興的 AI 技術(shù)重新設(shè)計和開發(fā)藥物,由斯坦福大學前校長 Marc Tessier-Lavigne 博士擔任首席執(zhí)行官,Baker 為聯(lián)合創(chuàng)始人。值得注意的是,Baker 實驗室的幾位科學家也全職加入了 Xaira。

Xaira 通過整合分子與人體疾病相關(guān)生物學特征的海量數(shù)據(jù),可以高質(zhì)量訓練模型。此外,公司還建立了工業(yè)化干濕實驗平臺,能夠通過實驗室測試蛋白質(zhì)對特定細胞靶標的粘附程度,并評估穩(wěn)定性等關(guān)鍵屬性。所得數(shù)據(jù)被快速反饋到蛋白質(zhì)模型中,從而實現(xiàn)分子設(shè)計的下一次迭代。
**2023 年成立的 Archon Biosciences 致力于通過生成式 AI 設(shè)計一種全新的生物藥物類型——抗體籠 (Antibody cage, AbC),**AbC 將 AI 設(shè)計與結(jié)構(gòu)控制融合,可完全控制抗體方向、結(jié)合域化合價、大小、形狀和剛度,這種結(jié)構(gòu)控制可實現(xiàn)精確的生物分布和 target engagement on cells,結(jié)合內(nèi)部的臨床數(shù)據(jù),能夠快速驗證抗體的有效性。該公司獲得了英偉達等多家公司的支持,所用技術(shù)源于 Baker 在 2024 年諾貝爾化學獎中獲得認可的成果。


Baker 展示蛋白質(zhì)納米籠

**除此之外,Monod Bio 公司今年 7 月份推出了世界上第一個完全從頭蛋白質(zhì)產(chǎn)品,即用于生命科學研究和診斷的熒光素酶 LuxSit? Pro。**對此,Baker 表示:「這是生物學和計算機科學的一個重要里程碑,相信在未來幾個月或幾年內(nèi),我們會看到更多從頭設(shè)計的蛋白質(zhì)轉(zhuǎn)化為成熟的商業(yè)產(chǎn)品?!乖摷夹g(shù)源自 Baker 2023 年在 Nature 上發(fā)表的一篇論文。

還有 2009 年成立的 Arzeda、2014 年成立的 Cyrus Biotech 以及 2018 年成立的 A-Alpha Bio 等公司,都積極引進了 Baker 最新研發(fā)的 AI 技術(shù),希望研發(fā)更多的新型蛋白質(zhì),用于制造新的藥物、疫苗、疾病療法,甚至是新的材料。

從最初的哲學探索到現(xiàn)在的蛋白質(zhì)設(shè)計「魔法師」,Baker 的每一步都充滿了對未知的渴望和對創(chuàng)新的執(zhí)著。他一貫堅持合作共贏才是長久之道,并用開放與分享的精神激勵全球無數(shù)研究人員和科學愛好者投身該領(lǐng)域的發(fā)展。他的研究成果不僅在學術(shù)界取得了巨大突破,還從實驗室走向了工業(yè)界,賦能疾病治療、食品生產(chǎn),材料科學等多個領(lǐng)域,為人類生活帶來了更多的可能。