隨著全球對可再生能源需求的日益增長,儲能技術作為一種能夠將能量儲存起來并在需要時釋放的解決方案,正受到越來越多的關注。但許多再生能源存儲技術初期投資成本高,運維困難,目前仍處于研發(fā)或示范階段。
針對于此,彼時還未更名的 Facebook 人工智能研究實驗室 (FAIR) 聯(lián)合卡耐基梅隆大學,于 2020 年發(fā)起了 Open Catalyst Project 項目,其目標是利用 AI 探尋用于可再生能源存儲的新催化劑。伴隨該項目的發(fā)布,研究團隊推出了催化劑模擬數據集 OC20。
2022 年,研究團隊在 OC20 數據集的基礎上,擴展推出了 Open Catalyst 2022 (OC22) Dataset,使得模型訓練更加精準。
近日,Meta 在材料科學領域再次迎來新突破,發(fā)布了 Open Materials 2024 (OMat24) 大規(guī)模開源數據集和一組配套的預訓練模型。OMat24 數據集包含超過 1.1 億次以結構和成分多樣性為重點的密度泛函理論 (DFT) 計算結果。預訓練模型使用 EquformerV2 (eqV2) 模型進行訓練,其中 eqV2-M 模型在 Matbench Discovery 排行榜上達到了最先進的水平,能夠預測基態(tài)穩(wěn)定性和形成能,為預測材料穩(wěn)定性設定了新的基準。
研究亮點:
OMat24 數據集在 MPtrj、Materials Project、Alexandria 等開源數據集的基礎上構建,數據集包含的元素幾乎覆蓋整個元素周期表
預訓練模型有 eqV2-S、eqV2-M、eqV2-L 三種模型規(guī)模,其中 eqV2-M 模型在 Matbench Discovery 排行榜上的 F1 得分為 0.916,平均絕對誤差僅為 20 meV/atom
OMat24 數據集包含超 1.1 億 DFT 計算結果,涵蓋不同的原子構型
OMat24 數據集是目前用于材料訓練 DFT 替代模型的最大的開源數據集之一。該數據集由一系列無機體塊材料的 DFT 單點計算 (single-point calculations)、結構弛豫 (structural relaxations) 和分子動力學軌跡 (molecular dynamic trajectories) 組成。研究人員總共計算了約 1.18 億個標注有總能量、力 (forces norm) 和晶胞應力 (stress) 的結構,使用了超過 4 億核時的計算資源。
這些結構是通過玻爾茲曼采樣生成擾動結構 (sampling of rattled structures)、從頭算分子動力學 (ab initio molecular dynamics, AIMD)、以及擾動結構的弛豫 (relaxations of rattled structures) 3 種技術生成的。
OMat24 數據集生成、應用領域及采樣策略概覽
OMat24 數據集具有廣泛的能量、力和應力分布。下圖展示了 OMat24 數據集、MPtrj 數據集以及 Alexandria 數據集的總能量 (total energy,單位用 eV/atom 表示)、 力 (forces,單位用 eV/A 表示) 和應力 (stress,單位用 GPa 表示) 標簽的分布情況。
MPtrj 數據集 (Materials Project Trajectory Dataset) 包含超過 150 萬個無機結構的 DFT 計算結果。因其大規(guī)模和多樣性,在材料科學和計算材料學領域具有重要的應用價值。
Alexandria 數據集是一個量子化學數據庫,為力場開發(fā)、密度泛函的開發(fā)和評估提供了大量的分子屬性數據。
橙色虛線代表 MPtrj 數據集、藍色虛線代表 Alexandria 數據集、綠色實線代表 OMat24 數據集
可以看到,OMat24 數據集的能量分布略高于用作輸入結構的 Alexandria 數據集,并且顯著高于 MPtrj 數據集;OMat24 數據集的力以及晶胞應力分布遠高于 MPtrj 和 Alexandria 數據集。
值得一提的是,OMat24 數據集所包含的元素也幾乎覆蓋了元素周期表。如下圖所示:
OMat24 數據集中的元素分布
盡管 OMat24 數據集與其他數據集相比具有優(yōu)越性,但研究人員同時也說明了該數據集還存在局限性。該數據集是基于 PBE 和 PBE+U 級別的 DFT 計算得到的,它只包含周期性體相結構,未考慮點缺陷、表面、非化學計量比以及低維結構的重要影響,因此存在固有的近似誤差,但這些誤差在其他泛函中得到了一定程度的解決。
如下圖所示,研究人員將 WBM 數據集中的計算結果與采用 OMat24 DFT 設置的單點計算結果進行了比較,結果發(fā)現(xiàn)二者之間平均絕對誤差為 52.25 meV/atom。
WBM 數據集是一個大規(guī)模的計算材料數據庫,包含了使用 DFT 計算得到的大量材料的電子結構和熱力學性質數據,如形成能、熵變、比熱容等。
WBM 數據集計算結果與 OMat24 DFT 設置的單點計算結果比較示意圖
以 EquformerV2 為模型架構,基于三大數據集進行模型訓練
研究人員利用 OMat24 數據集以及 MPtrj 數據集和 Alexandria 數據集來訓練模型。由于 Alexandria 數據集和用于測試的 WBM 數據集中存在類似的結構,研究人員對 Alexandria 數據集進行了子采樣以進行訓練,確保訓練數據集和測試數據集之間沒有遺漏。
首先,研究人員刪除了所有與 WBM 初始結構和弛豫結構中相匹配的部分,創(chuàng)建了 Alexandria 的新子集 (sAlexandria)。為了縮小數據集,研究人員刪除了總能量 > 0 eV、力范數 > 50 eV/? 和應力 > 80 GPa 的結構。最后,只對剩余軌跡中能量差大于 10 meV/atom 的結構進行采樣。最終用于訓練和驗證的結果數據集分別有 1,000 萬和 50 萬個結構。
對于模型架構,研究人員選擇 EquiformerV2,它是目前在 OC20 、OC22 和 ODAC23 排行榜上表現(xiàn)最好的模型。
對于模型訓練,研究人員探索了 3 種策略:
僅在 OMat24 數據集上訓練 EquiformerV2 模型,帶有和不帶有去噪增強目標 (denoising augmentation objectives)。這些模型具有最強的物理意義,因為它們僅適合包含與舊版 Materials Project 設置相關的底層偽勢重要更新的數據集。
僅在 MPtrj 數據集上訓練 EquiformerV2 模型,帶有和不帶有去噪增強目標,可用于直接與 Matbench Discovery 排行榜進行比較(標記為 compliant 模型)。
在 MPtrj 或 sAlexandria 結合的數據集上進一步微調 OMat24 或 OC20,從而進行 EquiformerV2 模型訓練,使其成為 Matbench Discovery 排行榜上表現(xiàn)最好的模型(標記為 non-compliant 模型)。
下表展示了基于 EquiformerV2 架構訓練的模型以及不同規(guī)格模型分別對應的參數總數和推理吞吐量:
基于 EquiformerV2 訓練的模型在 Matbench-Discovery 排行榜表現(xiàn)最優(yōu)
研究人員使用 Matbench-Discovery 基準對 EquiformerV2 模型進行評估,結果顯示無論是在 compliant (僅使用 MPtrj 訓練) 還是 non-compliant (使用額外數據訓練) 的模型上,EquiformerV2 模型在排行榜上都達到了最優(yōu)的表現(xiàn) (F1 分數是主要評判指標)。
下圖展示了 Matbench-Discovery 排行榜上其他 non-compliant 模型的表現(xiàn)。
圖源 Matbench-Discovery 官網
結果顯示 eqV2-M 模型的 F1 得分為 0.916,平均絕對誤差 (MAE) 為 20 meV/atom,均方根誤差 (RMSE) 為 72 meV/atom,為材料穩(wěn)定性的預測設立了新的基準。
此外,僅在 MPtraj 數據集上訓練的 EquiformerV2 模型也表現(xiàn)出色,這得益于有效的數據增強策略,如對非平衡結構進行去噪 (DeNS)。從上表可以看出,基于 OMat24 數據集預訓練的模型在精度方面優(yōu)于傳統(tǒng)模型,特別是在處理非平衡配置時表現(xiàn)突出。
開源成為材料科學與 AI 融合的加速器
在當今這個由數據驅動的時代,AI 正以其前所未有的速度和精度,重塑著材料科學的研究范式。特別是圍繞材料科學開源的 AI 知識、工具和數據,讓更多研究人員、開發(fā)者甚至是愛好者有機會共同參與到創(chuàng)新的過程中,協(xié)力推進材料科學的發(fā)展。
對于此次 OMat24 開源數據集及其模型的發(fā)布,機器學習大牛、微軟研究院首席科學家 Max Welling 在社交平臺表示「我對 OMat24 這個新數據集感到特別興奮,它催生了一個新的 SOTA 級別的機器學習力場基礎模型?!?/strong>
其實早在 2011 年,美國伯克利國家實驗室 (LBNL) 就發(fā)布了 Materials Projec。**該數據集包含了大量無機材料的計算數據,如晶體結構、電子結構和熱力學性質等,成為了當下材料科學研究的重要數據資源。
又如美國西北大學 (Northwestern University) 在 2013 年發(fā)布了開源量子材料數據集 OQMD,包含了 1,226,781 種材料的熱力學和結構性質的計算結果,被廣泛用于對多種材料應用進行高通量的 DFT 分析。
2018 年,麻省理工學院 (MIT) 發(fā)布 CGCNN 模型。
該模型在材料科學中應用廣泛,通過圖神經網絡實現(xiàn)對材料性質的預測,如預測晶體材料的帶隙、磁性和熱力學穩(wěn)定性等性質。
2020 年,美國國家標準與技術研究院 (NIST) 發(fā)布 JARVIS 開源平臺,專注于預測材料性質和電子結構。JARVIS-ML 是其機器學習模塊,提供了豐富的數據集和基于機器學習的材料篩選工具,支持 DFT、分子動力學模擬和機器學習,能夠幫助研究人員快速篩選和發(fā)現(xiàn)新材料。
2021 年,NIST 又發(fā)布了 ALIGNN 模型。該模型通過引入線圖來捕獲原子間的復雜相互作用,可以有效提高材料性質預測的準確性。
可以看出,從高通量篩選到自動化材料設計,開源已經成為推動材料科學與 AI 融合的重要加速器,正引領材料科學進入更智能、更高效的新紀元。