撰文 | 馬雪薇
編審 | 學術君
前言
一位失語四年的漸凍癥患者,在 AI 的幫助下,重新“開口”說話了。
肌萎縮側索硬化(ALS),又名漸凍癥,是一種神經系統(tǒng)罕見病,被世界衛(wèi)生組織(WHO)列為與艾滋病、癌癥等并列的 5 大絕癥之一。
由于“肌無力”,漸凍癥患者不僅無法正常完成行走、抓取物品等日常活動,連咀嚼、吞咽也異常困難,最終甚至不能發(fā)聲講話,這使得患者的抑郁情緒增加、生活質量下降。
如今,人工智能(AI)在讓“失語”患者重新說話方面,取得了新的突破。
在一項新的研究中,由加州大學戴維斯分校健康中心研究團隊及其合作者開發(fā)的一種由人工智能(AI)驅動的大腦植入物,成功將大腦信號轉換為語音,讓失語患者重新開口說話,準確率高達 97.5%。
圖 | Casey Harrell 與他的妻子。(圖源:Ian C. Bates, The New York Times)
相關研究論文以“An Accurate and Rapidly Calibrating Speech Neuroprosthesis”為題,已發(fā)表在權威醫(yī)學期刊《新英格蘭醫(yī)學雜志》(NEJM)上。
在這項研究中,他們對一位 45 歲的漸凍癥患者 Casey Harrell 進行了臨床試驗。在參加試驗前,Harrell 四肢癱瘓無力,言語很難理解。試驗結果顯示:
在系統(tǒng)使用的第一天,經過 30 分鐘的嘗試說話訓練數(shù)據(jù)后,神經假體達到了 99.6% 的準確率,詞匯量為 50 個單詞。
第二天,可能輸出的詞匯量增加到了 125000 個單詞,并且在額外 1.4 小時的訓練數(shù)據(jù)后,神經假體達到了 90.2% 的準確率。
隨著更多訓練數(shù)據(jù)的積累,神經假體在植入手術后八個月以上保持了 97.5% 的準確率。
此后,Harrell 使用神經假體進行了超過 248 小時的自主節(jié)奏對話,經過短暫的訓練期后,皮層內語音神經假體達到了恢復自然交流水平的性能。
據(jù)《紐約時報》報道,在任何一個時刻,植入物都會捕捉到一群神經元的活躍,將它們的放電模式轉化為聲音的元音或輔音單位,然后計算機將這些聲音串連成一個單詞,再將單詞串連成句子,選擇它們認為最可能對應于 Harrell 試圖說的話的輸出。
該論文的通訊作者之一、加州大學戴維斯分校助理教授、神經外科醫(yī)生 David M. Brandman 表示:“這一技術幫助了一位癱瘓的人與朋友、家人和護理者溝通,我們的研究展示了有史以來最準確的語音神經假體設備?!?/p>
找回失語患者的聲音
參與研究的患者 Harrell 是一位 45 歲的男性,患有 ALS 和四肢癱瘓,伴有嚴重的構音障礙 (ALSFRS-R = 23)。
在植入陣列之前,研究團隊通過解剖 MRI 掃描確定中央溝,并通過功能性 MRI 確認參與者是左半球語言優(yōu)勢。利用人類連接組計劃的多模態(tài) MRI 皮層分區(qū),將植入目標精確映射到參與者的腦中。
其次,團隊使用四個 64 電極猶他陣列從左側腹側前中央回測量皮層神經活動。機器學習技術每 80 毫秒將皮層神經活動解碼成一個英語音素。使用一系列語言模型(LM),預測的音素序列被翻譯成一系列單詞,當參與者嘗試說話時,這些單詞出現(xiàn)在屏幕上。在句子結束時,一個自聲音文本到語音算法將解碼的句子發(fā)聲,旨在模仿參與者在發(fā)展 ALS 之前的語音。
圖 | 電極位置和語音解碼設置。a, 大致微電極陣列位置,由黑色方塊表示,疊加在參與者大腦的 3D 重建上。b, 腦到文本語音神經假體的示意圖。
神經假體在啟動后即可實現(xiàn)高準確率解碼,無需大量訓練數(shù)據(jù)。研究結果表明,該神經假體在短期內即可為患有嚴重言語障礙的 ALS 患者提供自然溝通的能力。
圖 | 在線語音解碼性能。
圖 | 廣泛使用神經假體進行準確的自發(fā)語音。a, 參與者和語音神經假體在對話模式下的照片。神經假體僅基于神經活動檢測到他試圖說話,并在 6 秒的語音不活動后結束,或者在他通過眼動追蹤選擇激活屏幕上的按鈕后結束。解碼的句子完成后,參與者使用屏幕上的確認按鈕來指示解碼的句子是否正確。b, 參與者使用語音神經假體與女兒交談的第二天樣本轉錄。c, 參與者使用語音神經假體與周圍人溝通的累積小時數(shù),包括在結構化研究會議期間和個人使用期間。對于由紅色輪廓點表示的會議,解碼準確度在(d)中量化。d, 評估對話中的語音解碼準確度(n = 925 個已知真實標簽的句子,來源于(c)中紅色標記的會議)。平均單詞錯誤率為3.7%(95%置信區(qū)間,3.3%至4.3%)。
此外,研究還發(fā)現(xiàn),腹側中央前回區(qū)域的電極陣列在解碼語音方面表現(xiàn)最佳,其次是 55b 區(qū)、4 區(qū)和背側中央前回區(qū)域的電極陣列。解碼錯誤往往發(fā)生在發(fā)音相似的音素之間。此外,神經假體還能夠泛化到新的單詞,并且訓練數(shù)據(jù)中出現(xiàn)的頻率越高,對特定單詞的解碼準確性也越高。神經假體能夠解碼非發(fā)聲語音,以及不同說話幅度的語音,包括低聲、正常和大聲說話。
總而言之,這項研究證明了腦機接口技術在恢復失語癥患者溝通能力方面具有巨大潛力。
不足與展望
雖然這項研究取得了顯著的成果,但仍然存在一些局限性,需要在未來研究中進一步解決。
首先,該研究僅涉及一位參與者,因此需要更多參與者的研究來評估該系統(tǒng)在不同個體中的性能分布,并確定是否存在個體差異。
其次,該研究的參與者患有 ALS 并伴有嚴重構音障礙。需要進一步研究來評估該系統(tǒng)是否適用于其他原因導致的構音障礙患者,例如腦干卒中或中風。
而且,該研究僅報告了 8 個月的數(shù)據(jù)。需要更長時間的數(shù)據(jù)來評估神經解碼的長期穩(wěn)定性,并確定是否存在信號衰減或其他長期問題。
此外,該系統(tǒng)將腦信號解碼為文本,然后使用語音合成器將其轉換為語音。然而,目前的語音合成技術無法完全復制人類語音的自然度和豐富性。將腦信號直接轉化為語音仍然是一個挑戰(zhàn),需要進一步的研究。
還需要考慮的是,目前使用的設備較大,并且需要連接到外部電腦。需要開發(fā)更小、更便攜、無線連接的設備,以提高患者的舒適度和便利性。在未來,還可以嘗試開發(fā)更易于用戶和護理伙伴操作的自動化軟件,以進一步提高患者的自主性。