無論是「西部世界」中的 3D 生物打印、「星球大戰(zhàn)」中盧克天行者的機(jī)械手臂、還是「黑客帝國」中 AI 創(chuàng)造的虛擬世界,這些科幻片中的豐饒想象無不透露出人類對健康、長生的向往。
如今,機(jī)器手臂、 人工智能 等這些經(jīng)常在電影中出現(xiàn)的醫(yī)療技術(shù)已經(jīng)成為現(xiàn)實(shí)。想象一下,未來醫(yī)生只需要簡單地掃描你的眼睛,就能得知你的心臟健康狀況、預(yù)測帕金森風(fēng)險(xiǎn)。聽起來是不是也很科幻?但這并不是電影,而是真實(shí)發(fā)生的事。
作者:喬喬
編輯:三羊
本文首發(fā)自 HyperAI 超神經(jīng)微信公眾平臺~
視網(wǎng)膜是人體中唯一可以直接觀察到毛細(xì)血管網(wǎng)絡(luò)的部位,也是中樞神經(jīng)系統(tǒng)的一部分,傳統(tǒng)醫(yī)學(xué)人工智能常通過識別視網(wǎng)膜圖像中的健康狀況,進(jìn)行眼部疾病的診斷。
然而,AI 模型的開發(fā)需要大量由專業(yè)人士標(biāo)注的數(shù)據(jù),而且模型通常是針對特定疾病任務(wù)的,無法推廣至各種各樣的臨床應(yīng)用。
針對這種情況,來自倫敦大學(xué)學(xué)院 (UCL) 和 Moorfields 眼科醫(yī)院的在讀博士周玉昆等人,提出了一個(gè)視網(wǎng)膜圖像基礎(chǔ)模型 RETFound,它利用自 監(jiān)督學(xué)習(xí) (self-supervised learning) 在超過 160 萬張未標(biāo)注的視網(wǎng)膜圖像上訓(xùn)練而成,在眼部疾病診斷/預(yù)后及系統(tǒng)性疾病的預(yù)測等任務(wù)中,都具有極佳的性能。
相關(guān)論文已發(fā)表于 Nature 。
獲取論文:
https://www.nature.com/articles/s41586-023-06555-x
公眾號后臺回復(fù)「視網(wǎng)膜」獲取完整論文 PDF
RETFound 模型訓(xùn)練詳解
訓(xùn)練數(shù)據(jù):CFP+OCT 共計(jì) 164w+ 圖像
構(gòu)建 RETFound 的數(shù)據(jù)集包含兩部分:
* CFP 圖片:合計(jì) 904,170 張 ,其中 90.2% 來自 MEH-MIDAS,9.8% 來自 Kaggle EyePACS33
* OCT 圖片:合計(jì) 736,442 張,其中 85.2% 來自 MEH-MIDAS,14.8% 來自其他參考文獻(xiàn)
MEH-MIDAS 是一個(gè)回溯性數(shù)據(jù)集 (retrospective dataset),包括 2000 年至 2022 年期間,在倫敦 Moorfields 眼科醫(yī)院就診的 37,401 例(16,429 名女性、 20,966 名男性以及 6 名性別未知)糖尿病患者的完整眼部成像記錄。
這些患者的平均年齡 64.5 歲,標(biāo)準(zhǔn)差為 13.3 歲,同時(shí)考慮到種族分布多樣性,患者包含英國人 (13.7%) 、印度人 (14.9%) 、加勒比人 (5.2%) 、非洲人 (3.9%) 、其他種族 (37.9%) 以及未透露種族的患者 (24 .4 %) 。
MEH-MIDAS 數(shù)據(jù)集的數(shù)據(jù)來自多種成像設(shè)備,如 topcon 3DOCT-2000SA (Topcon),CLARUS (ZEISS) 以及 Triton (Topcon) 。
EyePACS 數(shù)據(jù)集的數(shù)據(jù)成像設(shè)備包括 Centervue DRS (Centervue) 、 Optovue iCam (Optovue) 、 Canon CR1/DGi/CR2 (Canon) 以及 Topcon NW (Topcon) 。
RETFound:針對視網(wǎng)膜圖像的基礎(chǔ)模型
RETFound 是一個(gè)針對視網(wǎng)膜圖像的基礎(chǔ)模型,它通過自監(jiān)督學(xué)習(xí) (self-supervised learning) 的方法,在 160 萬張未標(biāo)注的視網(wǎng)膜圖像上進(jìn)行訓(xùn)練,可應(yīng)用于其他帶有明確標(biāo)注的眼部及系統(tǒng)性疾病檢測任務(wù)。
RETFound 模型的實(shí)現(xiàn)用到了特定配置的掩碼 自編碼器 (masked autoencoder),這個(gè)掩碼自編碼器包含兩部分:
* 一個(gè)編碼器 (encoder):使用 large vision Transformer (ViT-large),包含 24 個(gè) Transformer block 以及 1,024 大小的嵌入向量,input 為 unmasked patches (16×16),并將其投影到 1,024 大小的特征向量中。這 24 個(gè) Transformer block 包括多頭自注意力機(jī)制 (multiheaded self-attention) 和多層 感知機(jī) (multilayer perceptron),接受特征向量作為 input 并生成 high-level features 。
* 一個(gè)解碼器 (decoder):使用 small vision Transformer (Vit-small),包含 8 個(gè) Transformer block 以及 512 大小的嵌入向量。將掩碼虛擬補(bǔ)丁 (masked dummy patche) 插入提取的 high-level features,作為模型 input,然后在線性投影后重構(gòu)圖像補(bǔ)丁。
RETFound 模型架構(gòu)示意圖
模型訓(xùn)練的目標(biāo)是從高度 masked 版本重建視網(wǎng)膜圖像,CFP 的 mask ratio 為 0.75,OCT 的 mask ratio 為 0.85,batch size 1,792 (8 GPUs × 224 per GPU),訓(xùn)練 epoch 合計(jì) 800,前 15 個(gè) epoch 用于學(xué)習(xí)率預(yù)熱(從 0 增加至 1×10-3 。 final epoch 的模型 權(quán)重 保存作為適應(yīng)下游任務(wù)的 checkpoint 。
3 個(gè)維度評估 RETFound 模型性能
為了評估 RETFound 模型的性能及標(biāo)注效率,科研人員將 RETFound 模型與其他 3 個(gè)預(yù)訓(xùn)練模型進(jìn)行了對比,它們分別是 SL-ImageNet 、 SSL-ImageNet 以及 SSL-Retinal 。所有模型的預(yù)訓(xùn)練策略都不一樣,但具有相同的模型架構(gòu)以及用于下游任務(wù)的調(diào)優(yōu)過程。
眼部疾病的診斷
科研人員使用 8 個(gè)公共數(shù)據(jù)集來驗(yàn)證 RETFound 模型在多種眼部疾病和成像條件下的性能。
內(nèi)部評估
上圖展示的是內(nèi)部評估 (Internal evaluation),調(diào)優(yōu)后模型應(yīng)用于每個(gè)數(shù)據(jù)集,并在眼科疾病診斷任務(wù)中對保留的測試數(shù)據(jù)進(jìn)行內(nèi)部評估(如糖尿病性視網(wǎng)膜病變及青光眼)。
實(shí)驗(yàn)結(jié)果表明:RETFound 在大部分?jǐn)?shù)據(jù)集中,都取得了最佳性能,排名第二的是 SL-ImageNet 。
外部評估
對于外部評估 (External evaluation),科研人員評估了 RETFound 模型在 diabetic retinopathy datasets (Kaggle APTOS-2019, IDRID and MESSIDOR-2) 上的性能,這些數(shù)據(jù)集都在 5 級國際臨床糖尿病性視網(wǎng)膜病變嚴(yán)重程度量表上標(biāo)注過。在 3 個(gè)數(shù)據(jù)集間進(jìn)行交叉評估,即在一個(gè)數(shù)據(jù)集上調(diào)優(yōu)模型,在其他數(shù)據(jù)集上對其進(jìn)行評估。
實(shí)驗(yàn)結(jié)果表明:RETFound 模型在所有交叉評估中都取得了最佳性能。
眼部疾病預(yù)后
科研人員還在 AlzEye 數(shù)據(jù)上,測試了另一只眼在 1 年內(nèi)轉(zhuǎn)化為濕性老年黃斑病變 (wet-AMD) 的預(yù)后情況,結(jié)果發(fā)現(xiàn):
輸入為 CFP 時(shí),RETFound 性能最佳,AUROC 達(dá)到 0.862 (95% CI 0.86, 0.865),顯著優(yōu)于比較組;
輸入為 OCT 時(shí),RETFound 得分最高,AUROC 達(dá)到 0.799 (95% CI 0.796, 0.802),比 SSL-Retinal 顯示出統(tǒng)計(jì)學(xué)意義上明顯更高的 AUROC 。
實(shí)驗(yàn)結(jié)果表明:RETFound 模型在所有任務(wù)中均表現(xiàn)最佳。
系統(tǒng)疾病的預(yù)測
科研人員通過 4 種系統(tǒng)性疾病,來評估 RETFound 模型在預(yù)測視網(wǎng)膜圖像與系統(tǒng)性疾病相關(guān)性方面的性能。
用視網(wǎng)膜圖像預(yù)測系統(tǒng)性疾病 3 年發(fā)病率的模型性能
4 種系統(tǒng)性疾病分別為:心肌梗塞 (Myocardial infarction) 、心力衰竭 (Heart failure) 、缺血性中風(fēng) (Ischaemic stroke) 以及帕金森病 (Parkinson’s disease) 。
實(shí)驗(yàn)結(jié)果顯示:RETFound 模型在 4 種疾病的預(yù)測中,性能均超越其他對比模型、排名第一。
RETFound 模型的局限及挑戰(zhàn)
盡管科研過程系統(tǒng)地評估了 RETFound 在診斷和預(yù)測心臟病、心力衰竭、中風(fēng)和帕金森等全身性疾病方面的作用,但仍存在一些限制和挑戰(zhàn),需要在未來的工作中進(jìn)一步探索。
首先,用于開發(fā) RETFound 的大多數(shù)數(shù)據(jù)都來自英國,因此需要考慮未來引入全球視網(wǎng)膜圖像后,可能對模型效果帶來的影響,模型有必要引入更加多樣化和平衡的數(shù)據(jù)。
其次,雖然這項(xiàng)研究探索了 CFP 和 OCT 下模型的性能,但尚未研究 CFP 和 OCT 之間的多模態(tài)信息融合,這可能會使得 RETFound 的性能進(jìn)一步提高。
最后,一些臨床相關(guān)信息,例如人口統(tǒng)計(jì)和視敏度(visual acuity),可能可以作為眼科研究的有效協(xié)變量,它們尚未包含在 SSL 模型中。
目前,RETFound 的開發(fā)人員已經(jīng)公開了這個(gè)模型,希望世界各地的人才能夠?qū)?RETFound 進(jìn)行調(diào)整和訓(xùn)練,使其適用于不同的患者群體和醫(yī)療環(huán)境。
AI 助力,智慧醫(yī)療新未來初見雛形
截至目前,RETFound 作為基礎(chǔ)模型是醫(yī)學(xué)成像中的少數(shù)成功應(yīng)用之一,它在提高模型性能、減輕醫(yī)學(xué)專家標(biāo)注負(fù)擔(dān)的同時(shí),也引發(fā)了人們對于醫(yī)療 AI 落地應(yīng)用的關(guān)注。
如今,醫(yī)療行業(yè)正在進(jìn)入數(shù)智化的爆發(fā)期,多方產(chǎn)業(yè)資本紛紛入局,推動(dòng) AI 技術(shù)在醫(yī)療行業(yè)的應(yīng)用。
據(jù)中商產(chǎn)業(yè)研究院統(tǒng)計(jì),2020 年 AI+ 醫(yī)療已占人工智能市場的 18.9%,市場規(guī)模為 66.25 億元。另據(jù) IDC 統(tǒng)計(jì)數(shù)據(jù),到 2025 年人工智能應(yīng)用市場總值將達(dá) 1,270 億美元,其中醫(yī)療行業(yè)將占市場規(guī)模的五分之一。從基礎(chǔ)層到應(yīng)用層,醫(yī)療 AI 廣闊市場大有所為。
資料來源:中商產(chǎn)業(yè)研究院
縱觀海外市場,醫(yī)療 AI 應(yīng)用陸續(xù)落地:今年 3 月,微軟旗下的臨床文檔軟件公司 Nuance 在其最新的語音轉(zhuǎn)錄應(yīng)用程序中添加了 GPT4;4 月,微軟和 Epic 宣布將把 OpenAI 的 GPT-4 引入醫(yī)療保健領(lǐng)域,以幫助醫(yī)護(hù)人員回復(fù)患者信息和分析醫(yī)療記錄;同月,谷歌宣布將向用戶群發(fā)布其醫(yī)學(xué)大模型 Med-PaLM 2 。
國內(nèi)方面,科大訊飛、商湯科技等積極布局,行業(yè)應(yīng)用加速探索。 AI+醫(yī)療,已經(jīng)是全球科技界都有共識的趨勢。
業(yè)內(nèi)人士認(rèn)為,AI 大模型的應(yīng)用有望顯著緩解醫(yī)療行業(yè)痛點(diǎn),隨著應(yīng)用場景的進(jìn)一步深化,醫(yī)療行業(yè)智能化時(shí)代有望正式開啟,行業(yè)長期機(jī)遇巨大。
參考鏈接:
[1]https://www.nature.com/articles/s41586-023-06555-x
[2]https://www.nature.com/articles/d41586-023-02881-2