前言
中風、癡呆癥等神經(jīng)系統(tǒng)疾病是致病、致殘的主要原因之一,據(jù)世界衛(wèi)生組織(WHO)報道,全球有超過三分之一的人口遭受這類疾病的影響。其中,神經(jīng)退行性疾病是一類慢性高發(fā)疾病,更是嚴重威脅人類的健康和生活質量。
深入了解蛋白質的結構和運作方式,將為我們解決這些疾病提供重要依據(jù)。早在上世紀 50 年代,對于蛋白質折疊問題的探索就已經(jīng)開始了。而 AlphaFold 的出現(xiàn),徹底改變了科學家們研究蛋白質折疊的范式。
如今,AI for protein sciences 又有了新的突破——
近日,來自哥本哈根大學、圣裘德兒童研究醫(yī)院和伊利諾伊理工學院的研究團隊,推出了一種設計具有特定結構性質的蛋白質變體的通用算法,將蛋白質的研究拓展到了固有無序蛋白(IDPs)領域。
IDPs 是一種無法折疊成穩(wěn)定或有序三維結構的蛋白質,被認為在健康系統(tǒng)和各種疾病的病理生理學中都具有重要的生物學意義。與折疊的蛋白質不同,IDPs 的特點是高度無序、局部移動性和高動態(tài)性,對現(xiàn)有預測工具而言尤其具有挑戰(zhàn)性。
這項研究不僅在理論上提出了新的設計方法,還通過實驗驗證了設計的 IDPs 變體,并使用機器學習模型來預測 IDPs 的集合屬性,為計算蛋白質設計提供了新的工具,或將幫助我們了解多種神經(jīng)退行性疾?。ㄈ绨柎暮D?、帕金森病、肌萎縮側索硬化癥)和多種類型癌癥的發(fā)病機制,以及促進新藥的發(fā)現(xiàn)和生物材料的開發(fā)。
相關研究論文以“Design of intrinsically disordered protein variants with diverse structural properties”為題,已發(fā)表在權威期刊 Science Advances 上。
我們?yōu)槭裁葱枰P注 IDPs?
一張折紙在以特定方式被折疊之前,只不過是壓制的木漿;一旦被折疊,它就變成了新的東西。幾次精確的折疊和翻轉后,它就變成了一種可以預測你未來的紙制品——幸運簽。同樣的一張紙,改變幾個折疊步驟,就變成了一只展翅欲飛的鶴,象征著好運的降臨。
類似地,一長串氨基酸分子在自發(fā)折疊成其特定形狀之前沒有任何功能。細胞通過將氨基酸的小分子串成長長的多肽鏈來制造蛋白質。選擇哪種氨基酸取決于 DNA 提供的指令集。在生成后的瞬間,多肽鏈精確地彎曲、折疊成蛋白質的最終 3D 形狀。
如果蛋白質不能極其高效地完成這一折疊過程,一系列災難就會在人體內發(fā)生進。折疊錯誤或解開的蛋白質可能會產(chǎn)生毒性和導致細胞死亡。許多疾病和障礙,如鐮狀細胞性貧血,都是由折疊錯誤的蛋白質引起的。折疊錯誤的蛋白質還可以聚集成團塊,這是阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的標志。
因此,預測出蛋白質分子的 3D 形狀對于我們理解或者是治療神經(jīng)退行性疾病是非常重要的。
然而,結構生物學領域歷來專注于研究折疊成穩(wěn)定 3D 結構的蛋白質和核酸,目前對蛋白質在細胞中如何發(fā)揮功能的理解大多基于“序列-結構-功能”關系這一概念。
而真核生物中約有 30% 的蛋白質并不折疊成穩(wěn)定的 3D 結構,這些動態(tài)變形的蛋白質就是 IDPs,或者當它們位于其他結構化蛋白質域的背景下時,被稱為“固有無序區(qū)域”(IDRs)。IDPs 和 IDRs 在分子和細胞功能中扮演著各種重要角色,挑戰(zhàn)著序列-結構-功能范式。
IDPs 的細胞功能失調與幾種神經(jīng)退行性疾?。ò柎暮D ⑴两鹕?、肌萎縮側索硬化癥)和許多癌癥有關,它具有自我結合形成生物分子凝聚物并在細胞環(huán)境中生成多種無膜細胞器的能力,這一特性在細胞生物學和疾病中越來越被認為是非常重要的。
為了更全面地理解生物學和人類疾病,達特茅斯學院助理教授 Paul Robustelli 在一個相關的專題中強調:“結構生物學必須超越對具有穩(wěn)定 3D 結構的蛋白質的研究,并發(fā)展規(guī)則來解釋 IDRs 的序列如何決定它們在溶液中采用的形狀分布,以及這種分布如何決定它們在細胞中的功能和在疾病中的功能失調?!?/p>
將計算蛋白質設計擴展到 IDPs
IDPs 具有極端但通常非隨機的結構異質性,不能形成穩(wěn)定的折疊結構,因此與折疊蛋白質相比,IDPs 的結構預測更具挑戰(zhàn)性,其計算設計仍然受限。
為此,F(xiàn)rancesco Pesce 和同事們已經(jīng)解決了這個挑戰(zhàn)。在之前發(fā)布的名為 CALVADOS 的計算模型的基礎上,他們設計了一個通用算法來生成具有預定義全局屬性的 IDPs,并使用它來生產(chǎn)四種具有不同特性的 IDPs。他們還專注于一種名為 A1-LCD 的 IDPs,并通過實驗驗證了該模型對 A1-LCD 幾種變體的序列-集合關系的推導。
他們設計了具有特定結構性質的蛋白質變體的通用算法。該算法利用粗粒度模擬和自由能計算,結合蒙特卡洛采樣方法,在序列空間中進行搜索,生成具有目標結構特征的蛋白質序列。研究人員使用該算法設計了多種蛋白質變體,并對其進行了實驗驗證,結果表明該算法能夠有效地設計具有不同緊密度、長程相互作用和相分離傾向的蛋白質變體。
該算法通過搜索序列空間,并使用高效的粗粒度模擬將每個序列與其構象性質聯(lián)系起來。并使用 CALVADOS 模型進行粗粒度分子動力學(MD)模擬,并生成 IDPs 的構象集合。算法會利用蒙特卡洛算法(MCMC)采樣序列空間,并預測其構象性質(通過 MD 模擬和計算自由能)。通過優(yōu)化過程,尋找特定氨基酸排列,以確定目標結構特征。
圖 | 研究團隊設計具有目標構象性質的 IDPs 序列的算法概述。
該算法可以設計具有特定結構性質的 IDPs 序列,例如緊縮程度、長程接觸和相分離傾向。此外,它還可以探索序列空間,并找到具有新穎構象特征的 IDPs 序列。研究團隊還利用機器學習模型加速算法,使其更高效。
在未來,研究團隊建議進行更廣泛的序列空間采樣,并探索將 MCMC 采樣與其他方法(如強化學習和貝葉斯優(yōu)化)相結合來更有效地探索序列空間。并且,作者指出機器學習和模擬的結合將在設計具有更復雜結構可觀測量的序列時尤為重要,其中模擬可能更昂貴,而化學計算可能效率較低。此外,該算法可以應用于設計具有其他結構特征的序列,并展示了設計具有目標接觸圖的序列的可能性。
AI for Proteins,一直在進步
自 20 世紀 60 年代起,科學家們對蛋白質的研究就開始了,當時主要靠 X 射線和核磁共振(NMR)等傳統(tǒng)技術來解析其結構。隨著對蛋白質生物化學機制認識的深化和計算技術的迅猛進步,研究者們開始轉向計算方法來預測蛋白質的結構。
2016 年,許錦波團隊開創(chuàng)性地將深度殘差網(wǎng)絡(ResNet)運用于結構預測,顯著提升了蛋白質殘基接觸預測的精確度?;谶@一成果,一系列結合共進化和深度學習算法的研究相繼問世,例如 AlphaFold(側重于殘基距離預測)和楊建益與 David Baker 團隊開發(fā)的 trRosetta(側重于引入二面角信息等),均采納了 ResNet 架構。
2020 年,AlphaFold2 在 CASP14 競賽中一鳴驚人,達到了 98.5% 的預測準確率。2021年,David Baker 團隊在 Science 雜志發(fā)布了開源的蛋白質預測工具 RoseTTAFold,該工具利用自然語言處理(NLP)技術,直接從多序列比對(MSA)中提取共進化信息,其預測精度可與 CASP14 中的 AlphaFold2 相媲美。從此,基于蛋白質序列的預訓練模型,亦稱為蛋白質語言模型(PLM),開始廣泛應用于蛋白質結構預測。
2022 年末,Meta 公司推出了 ESM-2 和 ESMFold,成為當時發(fā)布的最龐大、最復雜的蛋白質語言模型之一。2024 年,David Baker 團隊推出了 RoseTTAFold All-Atom(RFAA)這一新型結構預測方法,它能精確描繪生物單元中所有原子的 3D 坐標,包括蛋白質、核酸、小分子、金屬和化學修飾。
除了在蛋白質結構預測領域的顯著進展,人工智能(AI)也在蛋白質研究的其他多個方向持續(xù)發(fā)力,如預測蛋白質與其他生物分子的相互作用、蛋白質設計、蛋白質組學等。展望未來,AI 將繼續(xù)拓展其影響力,填補蛋白質研究領域的諸多空白。