在現(xiàn)代生物技術和醫(yī)藥研究中,蛋白質(zhì)工程扮演著至關重要的角色。通過修改蛋白質(zhì)的氨基酸序列,蛋白質(zhì)工程可以改善或賦予蛋白質(zhì)新的生物化學性質(zhì),如增強酶的催化效率、提高藥物的親和力或改善其熱穩(wěn)定性。這些改進對于開發(fā)新藥、治療疾病以及提高生物制造的效率等方面都是非常關鍵的。
蛋白質(zhì)工程需要從數(shù)以萬計的候選突變體中篩選出最優(yōu)突變體,其中的有利突變是指那些能夠改善蛋白質(zhì)某一或多個生物化學屬性的遺傳變異,增強蛋白質(zhì)的穩(wěn)定性、親和力、選擇性或催化效率,使其更適合特定的應用。然而,通過實驗驗證高適應性突變體的成本大、時間長,此外,多個有益突變的組合往往會受到負表觀遺傳效應的影響,使得蛋白質(zhì)的功能因突變而降低,這些因素都在不同程度上增加了高效蛋白質(zhì)設計的復雜性。
近幾年,基于深度學習的預測與篩選方法在實際應用中得到了驗證與應用:通過分析大量數(shù)據(jù),學習蛋白質(zhì)序列、結構與功能的關系,能夠提高蛋白質(zhì)設計的準確性和效率。但多數(shù)方法是基于多序列比對 (MSA) 或蛋白質(zhì)語言模型 (PLM) 對蛋白質(zhì)序列進行特征的提取,存在諸多局限,例如依賴多序列比對的質(zhì)量,受限于同源信息;或需大量數(shù)據(jù)和復雜模型,訓練成本高。此外,直接應用預訓練模型到新任務,對模型的泛化能力和表達能力更是一大挑戰(zhàn)。
為此,上海交通大學洪亮課題組研發(fā)了一種名為 PROTLGN 的微環(huán)境感知圖神經(jīng)網(wǎng)絡,能夠從蛋白質(zhì)三維結構中學習并預測有益的氨基酸突變位點,指導具有不同功能白質(zhì)單位點突變和多位點突變設計,超過 40% 的 PROTLGN 設計單點突變體蛋白質(zhì)優(yōu)于其野生型對應物。成果已發(fā)表在 JCM。
PROTLGN :輕量級圖神經(jīng)去噪網(wǎng)絡的搭建
PROTLGN 框架:基于圖神經(jīng)網(wǎng)絡的蛋白質(zhì)學習網(wǎng)絡
PROTLGN 是一種基于圖神經(jīng)網(wǎng)絡的蛋白質(zhì)表征學習模型,其核心架構如下:
PROTLGN 架構
kNN 圖 (k-Nearest Neighbors Graph):
輸入蛋白質(zhì)的氨基酸殘基作為圖中的節(jié)點,通過 k 臨近算法確定邊基與氨基酸殘基之間的空間距離,進而構建蛋白質(zhì)的拓撲結構,為后續(xù)的圖神經(jīng)網(wǎng)絡處理提供基礎。
等變 GNN (Equivariant Graph Neural Network):
在三維空間中,蛋白質(zhì)的結構可能會發(fā)生旋轉或反射。等變 GNN 作為核心網(wǎng)絡層,設計成能夠識別并保持這種旋轉不變性的結構,即無論蛋白質(zhì)圖形如何旋轉,網(wǎng)絡的輸出對于相同的蛋白質(zhì)結構都應該是一致的。
節(jié)點嵌入 (Node Embedding):
在圖表示的蛋白質(zhì)中,每個氨基酸殘基被表示為圖中的一個節(jié)點,以便于機器學習模型能夠捕捉和理解節(jié)點之間的復雜關系。
輸出層與得分 (read-out layer & score):
利用等變 GNN 學習到的節(jié)點表示識別有益的突變位點,預測突變對蛋白質(zhì)功能或結構的潛在影響。同時作為模型的最后一層,將預測結果轉為量化評分。
驗證 (Validation):
使用實驗生物學方法,如酶聯(lián)免疫吸附試驗 (ELISA)、差示掃描熒光熱穩(wěn)定性分析 (DSF) 等對模型預測的突變體進行實驗驗證,測試其生物學功能。
PROTLGN 的訓練過程:訓練-預測-微調(diào)
PROTLGN 的訓練過程如下圖所示,其中包含訓練、預測和模型微調(diào):
PROTLGN 預訓練和預測流程
自監(jiān)督預訓練 (Self-supervised Pretraining):
PROTLGN 首先在野生型蛋白質(zhì)上進行自監(jiān)督預訓練,任務是氨基酸類型的去噪 (AA-type-denoising)。
輸入圖中包含的三維坐標信息是節(jié)點屬性的一部分,用于更準確地表示氨基酸殘基在蛋白質(zhì)三維空間中的位置。
三維坐標信息與氨基酸的物理和生化屬性(如氨基酸類型、SASA、B-factor 等),共同構成了輸入圖的節(jié)點和邊的屬性。這些屬性被用來構建 KNN 圖,其中每個節(jié)點(氨基酸殘基)根據(jù)其與其它節(jié)點的空間距離相互連接。
PROTLGN 的自監(jiān)督學習過程
等變圖卷積層 (EGC):
預訓練中使用等變圖神經(jīng)網(wǎng)絡 (equivariant graph neural networks, EGC layers),負責處理輸入的蛋白質(zhì)圖,通過本層,模型能夠學習到在旋轉和平移變換下保持不變的節(jié)點嵌入,幫助處理不同蛋白質(zhì)的結構。
EGC 層是圖神經(jīng)網(wǎng)絡的核心,能夠處理圖結構數(shù)據(jù),并且保持對蛋白質(zhì)空間結構變化的敏感性,這對于理解蛋白質(zhì)的三維結構至關重要。
在自監(jiān)督學習過程中,EGC 層接收具有噪聲的野生型蛋白質(zhì)圖作為輸入,并輸出節(jié)點的嵌入表示,這些嵌入表示考慮了氨基酸殘基之間的空間關系。
噪聲注入 (Noisy Input Attributes):
在訓練過程中,對野生型蛋白質(zhì)的輸入屬性注入噪聲,模擬自然界中的隨機突變。
零樣本預測 (Zero-shot Prediction):
藍色箭頭表示當考慮蛋白質(zhì)突變時,模型使用預訓練階段學到的知識來預測突變對蛋白質(zhì)功能可能產(chǎn)生的影響。
濕實驗評估 (Wet Biochemical Assessments):
將突變體的預測與濕實驗評估相結合,可以更新預訓練模型,以更好地適應特定蛋白質(zhì)和功能。
微調(diào) (Fine-tuning):
圖示綠色箭頭部分,結合濕實驗的評估,預訓練模型可以根據(jù)特定的蛋白質(zhì)和功能進行更新和優(yōu)化,提高預測的準確性和適應性。
為了進一步利用生物學的先驗信息來提高模型的泛化性和表達能力,研究人員還采取了 3 個額外的措施:
對輸入的氨基酸類型進行加噪,模仿自然界中的隨機突變;
在氨基酸節(jié)點預測的損失函數(shù)打分機制中,引入標簽平滑來鼓勵同類氨基酸之間的置換;
利用多任務學習策略,讓預訓練模型學習多種預測目標,從而訓練一個「一詞多用」的圖表示學習模型。
挖掘蛋白質(zhì)定向進化潛能:PROTLGN 提供有效策略
為了驗證 PROTLGN 對蛋白質(zhì)突變體活性預測的準確性,本研究在多種蛋白質(zhì)的不同生物學功能上進行了廣泛的驗證工作,以確保 PROTLGN 的普適性,其中包括 VHH 抗體、多種熒光蛋白(如綠色、藍色和橙色熒光蛋白)、以及核酸內(nèi)切酶 (KmAgo) 等,涵蓋了熱穩(wěn)定性、結合親和力、熒光亮度和單鏈 DNA 切割活性等蛋白質(zhì)工程中常見的功能改造目標。
實驗數(shù)據(jù)顯示,即使在缺乏實驗數(shù)據(jù)或僅有少量類似蛋白質(zhì)實驗數(shù)據(jù)的情況下,PROTLGN 仍能達到 40% 的單點突變成功預測率,并且在某些情況下能夠同時提升多種生物學功能。
PROTLGN 與熒光蛋白:預測模型的遷移能力
研究人員采用 PROTLGN 模型,對綠色熒光蛋白 (GFP) 進行了精細調(diào)整,以開發(fā)出專門針對熒光強度優(yōu)化的評分函數(shù)。從深度突變掃描 (DMS) 數(shù)據(jù)庫中隨機選取 1,000 個已標記的 GFP 突變體進行微調(diào)訓練,從而提高了模型預測熒光強度變異的準確性。
熒光蛋白實驗結果
左側展示蛋白質(zhì)結構,紅色球體突出顯示了發(fā)生突變的氨基酸殘基
右側展示熒光強度數(shù)據(jù),不同突變體與 WT 進行對比
圖 a 評估了從少量標記的綠色熒光蛋白 (GFP) 變體中學習到的特定功能適應度評分函數(shù)的實用性。在 10 個突變體中,有 5 個展現(xiàn)出比野生型 (WT) 更高的熒光強度,其中表現(xiàn)最佳的突變體熒光強度達到了 WT 的 2 倍。
此外,該實驗檢驗了同一評分函數(shù)在與 GFP 來自不同蛋白家族、活性區(qū)域不同、序列同源性約 21% 的橙色熒光蛋白 (orangeFP) 上的表現(xiàn)。研究人員利用微調(diào)后的 PROTLGN 對 orangeFP 的單點突變體進行排名,并挑選前 10 個變體進行濕實驗表達和檢驗。
在這些突變體中,有 7 個表現(xiàn)出比 WT 更高的熒光強度,這一結果彰顯了模型的強大遷移能力。
PROTLGN 與 VHH 抗體:零樣本 PROTLGN 的性能
實驗人員使用 PROTLGN 模型,在沒有實驗數(shù)據(jù)的情況下,通過約 30,000 個未標記的蛋白質(zhì)結構進行預訓練,選擇具有最高適應度預測的 VHH 抗體變體中的前 10 個突變體進行濕實驗評估。
PROTLGN 設計的 VHH 抗體結果
(a):左側展示 VHH 抗體的結構,右側展示 VHH 抗體及其單點突變體的結合親和力
(b):左側展示 VHH 抗體的結構,此處不同位點產(chǎn)生突變,右側展示 VHH 抗體及其單點突變體的熔點溫度
有 3 個突變體在結合親和力和熱穩(wěn)定性兩方面都表現(xiàn)優(yōu)異,這證實了 PROTLGN 在指導 VHH 抗體突變設計中的有效性,尤其是在提高抗體的性能方面。
PROTLGN 的自監(jiān)督學習策略為蛋白質(zhì)工程提供了一種強大的工具,能夠在沒有實驗數(shù)據(jù)的情況下進行準確的突變預測。
PROTLGN 與 Ago蛋白:尋找最優(yōu)單點突變組合
研究人員利用 PROTLGN 對 12 個已知的單點突變進行組合評分,篩選出 2—7 個位點的前 5 個高階突變候選體,共 30 個突變體,以期通過濕實驗評估找到性能更優(yōu)的 Ago 蛋白變體。
PROTLGN 設計的 KmAgo 突變體及實驗結果
左上:KmAgo 蛋白的結構
右上:不同數(shù)量突變位點的 KmAgo 突變體的最佳活性。這可能表明隨著突變位點的增加,活性如何變化
中下:KmAgo 及其多突變位點突變體的切割活性
實驗結果顯示:
活性提升:與野生型 (WT) 相比,90% 的突變體顯示出增強的 DNA 切割活性。
最佳突變體:最佳的突變體是一個 7 位點突變體,其活性比 WT 高出 8 倍。
高階突變體的優(yōu)勢:無論是在最大活性提升還是平均提升方面,高階突變體往往比低階突變體展現(xiàn)出更高的活性。
PROTLGN 模型能夠成功地識別高增益功能突變體,并且在組合單突變位點時能夠識別出正向的上位效應。這證實了 PROTLGN 在指導 Ago 蛋白突變設計中的有效性,尤其是在提高抗體的性能方面。
將 PROTLGN 與其他自監(jiān)督模型比較:更高效、更準確
在最新的研究中,科學家們利用 PROTLGN 模型對深度突變掃描 (DMS) 數(shù)據(jù)集中的蛋白質(zhì)適應度進行了預測,并與其他自監(jiān)督學習模型進行了比較。
不同模型的蛋白質(zhì)預測效果
a:零樣本深度學習模型的推斷效率和效果
b:多突變位點效應預測性能
c:高階突變預測性能提升
實驗結果顯示,PROTLGN 在所有比較的模型中表現(xiàn)最佳,它不僅準確預測了蛋白質(zhì)的適應度,而且使用的可訓練參數(shù)數(shù)量最少。這一點非常重要,因為較少的參數(shù)意味著模型訓練和微調(diào)的成本低,同時也意味著模型可以在較少的標記數(shù)據(jù)上進行有效學習。
在實驗的最后階段,研究人員使用了部分可用的實驗標簽來增強模型的微調(diào),進一步提高了預測的準確性,結果顯示 PROTLGN 在性能上明顯優(yōu)于其他方法,尤其是在處理高階突變體時。
PROTLGN 對蛋白質(zhì)亞細胞定位預測:綜合分析蛋白質(zhì)的三維結構
在一項突破性的研究中,科學家們采用了 PROTLGN 模型來預測蛋白質(zhì)的亞細胞定位 (protein subcellular localization, PSL),即蛋白質(zhì)在細胞內(nèi)的具體位置,它與蛋白質(zhì)的功能密切相關。
模型對蛋白質(zhì)亞細胞定位預測
研究團隊首先利用 PROTLGN 模型分析了 9,366 個標記的蛋白質(zhì),每個蛋白質(zhì)由其氨基酸級別的表示組成。隨后,在 2,738 個測試蛋白質(zhì)上進行了評估,以預測這些蛋白質(zhì)在細胞內(nèi)的 10 個可能位置。實驗結果顯示,PROTLGN 在預測準確性上顯著超越了現(xiàn)有的基于氨基酸序列或同源信息的基線方法。
結語:生物醫(yī)學的「AI 革命」沒有邊界
從 AlphaFold 開始,人工智能不斷刷新著生物醫(yī)學工程的認知界限,但深度學習仍受限于高質(zhì)量的數(shù)據(jù),對于這一局限,PROTLGN 的零樣本學習訓練或許給出了回答。零數(shù)據(jù)跨入 AGI 時代后,下一代結構生物學家很可能不再主要是實驗方法的專家,更多地是負責解釋、設計和執(zhí)行基于結構的實驗,證明或否定生物學中的機制,或設計新的蛋白質(zhì)功能與臨床治療方法。