版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

給大模型穹頂,樹(shù)一根存力支柱

腦極體
原創(chuàng)
從技術(shù)協(xié)同到產(chǎn)業(yè)革命,從智能密鑰到已知盡頭
收藏

建一座殿堂之前,首先要立起足夠支撐其屋頂重量的支柱。

段玉裁在《說(shuō)文解字注》里說(shuō),“柱之言主,屋之主也”。也就是說(shuō),支柱是一座屋子最主要,最基礎(chǔ)的東西。支柱不牢,再美好的雕梁畫(huà)棟也會(huì)歸為泡影。

在今天,我們正在以拳拳之心建設(shè)一座名為AI大模型的穹頂。預(yù)訓(xùn)練大模型通用性好、泛化性強(qiáng)的優(yōu)勢(shì),讓各個(gè)行業(yè)都看到了走向智能化的曙光,點(diǎn)燃了社會(huì)經(jīng)濟(jì)的熾熱追尋。根據(jù)相關(guān)數(shù)據(jù),幾天之前在上海舉辦的世界人工智能大會(huì)上,就有超過(guò)30款中國(guó)AI大模型集中亮相。通觀整個(gè)中國(guó),更是來(lái)到了“百模大戰(zhàn)”的盛況。根據(jù)科技部新一代人工智能發(fā)展研究中心等機(jī)構(gòu)發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,中國(guó)研發(fā)的大模型數(shù)量排名全球第二,并且在一些垂直領(lǐng)域?qū)崿F(xiàn)了全球領(lǐng)先。

仰望大模型的穹頂固然重要。但此時(shí)更該去思考,這座穹頂?shù)闹е欠駡?jiān)實(shí)可靠,能撐起多大的重量?在傳輸、算力兩大AI基礎(chǔ)設(shè)施之外,存力對(duì)大模型發(fā)展的支撐意義,正在引發(fā)更多關(guān)注。

(華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁 周躍峰)

7月14日,大模型時(shí)代華為AI存儲(chǔ)新品發(fā)布會(huì)舉辦。期間,華為詳盡展示了大模型帶給存儲(chǔ)底座的挑戰(zhàn),以及華為在技術(shù)、產(chǎn)品、生態(tài)上選擇的應(yīng)對(duì)之道。

華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰在“數(shù)據(jù)新范式,釋放AI新動(dòng)能”主題分享中表示:“大模型時(shí)代,數(shù)據(jù)決定AI智能的高度。作為數(shù)據(jù)的載體,數(shù)據(jù)存儲(chǔ)成為AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。華為數(shù)據(jù)存儲(chǔ)未來(lái)將持續(xù)創(chuàng)新,面向AI大模型時(shí)代提供多樣化的方案與產(chǎn)品,攜手伙伴共同推進(jìn)AI賦能千行百業(yè)。”

當(dāng)世界醉心于建設(shè)大模型的穹頂,存儲(chǔ)產(chǎn)業(yè)需要先樹(shù)起能夠支撐智能世界的支柱。面對(duì)大模型時(shí)代,華為存儲(chǔ)選擇了自己的擔(dān)當(dāng)。

假想:缺乏存力支撐的大模型時(shí)代會(huì)怎樣?

我們都知道,發(fā)展AI大模型還有很多層面的問(wèn)題需要解決。比如可供訓(xùn)練的中文語(yǔ)料、數(shù)據(jù)集不足;大模型過(guò)于依賴人工調(diào)優(yōu),落地成本過(guò)大;對(duì)高端算力有依賴,算力資源稀缺等。

但在這些問(wèn)題之外,我們必須正視這樣一個(gè)現(xiàn)實(shí):假設(shè)大模型缺乏適配的存儲(chǔ)產(chǎn)品與存儲(chǔ)資源,那么結(jié)果可能也不容樂(lè)觀。在華為看來(lái),在AI發(fā)展的不同領(lǐng)域與階段,面臨著數(shù)據(jù)存儲(chǔ)方面的4大挑戰(zhàn)。

**首先是數(shù)據(jù)歸集太慢。**大模型有著龐大的數(shù)據(jù)規(guī)模,且需要用到大量的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行訓(xùn)練。這就導(dǎo)致AI訓(xùn)練需要從跨地域的多個(gè)數(shù)據(jù)源,進(jìn)行大量的原始數(shù)據(jù)拷貝,如果這個(gè)過(guò)程過(guò)于復(fù)雜,效率過(guò)低,就會(huì)導(dǎo)致AI開(kāi)發(fā)進(jìn)度被擱置。尤其會(huì)嚴(yán)重限制那些本地?cái)?shù)據(jù)規(guī)模龐大的行業(yè)落地大模型。

**其次是數(shù)據(jù)預(yù)處理周期長(zhǎng)。**AI訓(xùn)練首先需要進(jìn)行大量的數(shù)據(jù)預(yù)處理。尤其大模型數(shù)據(jù)規(guī)模龐大,數(shù)據(jù)預(yù)處理的工作量也隨之遞增。一個(gè)典型的百TB級(jí)大模型數(shù)據(jù)集,數(shù)據(jù)預(yù)處理工作經(jīng)常要超過(guò)10天,占AI數(shù)據(jù)挖掘全流程的30%。如果沒(méi)有針對(duì)性的存力幫助,隨著模型的不斷增大,數(shù)據(jù)預(yù)處理的工作量、工作時(shí)長(zhǎng)以及消耗算力將持續(xù)增大,導(dǎo)致大模型的訓(xùn)練愈發(fā)艱難。

**然后是數(shù)據(jù)集加載慢,訓(xùn)練易中斷。**大模型的訓(xùn)練參數(shù)、訓(xùn)練數(shù)據(jù)集規(guī)模特別龐大,這就導(dǎo)致多種狀況都會(huì)影響到數(shù)據(jù)集的加載,從而導(dǎo)致模型訓(xùn)練的中斷甚至重來(lái)。尤其在訓(xùn)練復(fù)雜的模型結(jié)構(gòu)時(shí),數(shù)據(jù)加載不順暢,易出錯(cuò)會(huì)導(dǎo)致巨大的工作開(kāi)銷增加。

比如根據(jù)相關(guān)數(shù)據(jù),OpenAI 在 GPT-4 的訓(xùn)練使用了約 25000 個(gè) A100 GPU的算力,進(jìn)行了90到100天的訓(xùn)練。其模型 flops 利用率僅有32%到36%。大量故障導(dǎo)致重新啟動(dòng)檢查點(diǎn),就是其算力利用率低的主要原因。如果不能解決這個(gè)問(wèn)題,大模型不斷發(fā)展就意味著無(wú)盡的算力資源與人力資源將消耗在數(shù)據(jù)故障當(dāng)中,讓大模型的應(yīng)用成本難以承受。

**此外還有一個(gè)挑戰(zhàn),是模型的推理實(shí)時(shí)性和精準(zhǔn)度低。**大模型在推理部署時(shí),需要將最新的數(shù)據(jù)隨時(shí)聯(lián)接進(jìn)來(lái),而目前主流方法訓(xùn)練時(shí)間長(zhǎng)且成本高。如果不能克服這個(gè)挑戰(zhàn),將讓大模型的推理部署效果大打折扣,從而影響智能化的最終落地效果。

由此可見(jiàn),**大模型時(shí)代各家不僅需要比算法,比算力,比數(shù)據(jù),更需要比存力。**具體而言,就是比拼存儲(chǔ)資源,比拼存儲(chǔ)體系應(yīng)對(duì)大模型需求的準(zhǔn)確性,比拼在數(shù)據(jù)側(cè)提升大模型訓(xùn)練推理效果的軟硬件適配。如果缺少存力這根支柱,就像缺少AI算力、缺少數(shù)據(jù)、缺少落地場(chǎng)景一樣,大模型時(shí)代是根本是不成立的。

建立:針對(duì)AI大模型的存儲(chǔ)支柱

好在,針對(duì)這樣的現(xiàn)實(shí),存儲(chǔ)產(chǎn)業(yè)已經(jīng)行動(dòng)了起來(lái)。比如面對(duì)大模型時(shí)代的AI存儲(chǔ),就可以提供4大能力:針對(duì)數(shù)據(jù)歸集難題,華為可以通過(guò)數(shù)據(jù)編織能力,實(shí)現(xiàn)跨系統(tǒng)、跨地域、跨云的全局統(tǒng)一數(shù)據(jù)視圖和調(diào)度;針對(duì)數(shù)據(jù)預(yù)處理周期長(zhǎng)的問(wèn)題,華為打造了近存計(jì)算能力,讓數(shù)據(jù)在存儲(chǔ)完成數(shù)據(jù)準(zhǔn)備,更好釋放AI算力資源;針對(duì)訓(xùn)練易中斷等問(wèn)題,華為通過(guò)預(yù)處理加速、AI訓(xùn)練/推理加速等技術(shù),實(shí)現(xiàn)訓(xùn)練過(guò)程0等待 。

把這些長(zhǎng)期建設(shè)的技術(shù)能力與針對(duì)性解題思路聚合在一起,最終形成能夠應(yīng)對(duì)大模型存力挑戰(zhàn),適配大模型的開(kāi)發(fā)與部署需求的產(chǎn)品與解決方案——這就是華為存儲(chǔ)為大模型穹頂,建立存儲(chǔ)支柱的方式。

這些技術(shù)能力,最終凝結(jié)成了本次發(fā)布的兩款產(chǎn)品:面向AI全流程,提供領(lǐng)先性能的OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ),以及能夠大幅降低AI使用門檻的FusionCube A3000訓(xùn)/推超融合一體機(jī)。

面向數(shù)據(jù)量不斷擴(kuò)張,模型日新月異的AI大模型,高性能、有針對(duì)性的數(shù)據(jù)存儲(chǔ)底座是發(fā)展的必要條件,OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)就為此而生。其具備超高可擴(kuò)展性,混合負(fù)載高性能,多協(xié)議無(wú)損融合互通,能夠?qū)崿F(xiàn)數(shù)據(jù)歸集、預(yù)處理、訓(xùn)練、推理的AI全流程海量數(shù)據(jù)管理。

面對(duì)AI計(jì)算與HPC合流的產(chǎn)業(yè)趨勢(shì),OceanStor A310可以提供面向AI、HPC、大數(shù)據(jù)場(chǎng)景的同源數(shù)據(jù)分析能力,最大支持4096節(jié)點(diǎn)擴(kuò)展,單框5U支持業(yè)界最高的400GB/s帶寬以及1200萬(wàn)IOPS的最高性能,支持多協(xié)議無(wú)損融合互通,實(shí)現(xiàn)數(shù)據(jù)的0拷貝,全流程效率提升60%。OceanStor A310存儲(chǔ)通過(guò)近存計(jì)算,可以實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的預(yù)處理,預(yù)處理效率提升30%。利用全局文件系統(tǒng)GFS,接入分散在各地域的原始數(shù)據(jù),簡(jiǎn)化數(shù)據(jù)歸集流程,從而將華為應(yīng)對(duì)AI大模型的存儲(chǔ)能力集中釋放,一次性接觸AI開(kāi)發(fā)全流程的數(shù)據(jù)難題與存力挑戰(zhàn)。

未來(lái),AI將融入千行百業(yè),重塑千行百業(yè)。這也就導(dǎo)致能夠適配更多行業(yè)場(chǎng)景、應(yīng)用場(chǎng)景的超融合一體機(jī)將成為產(chǎn)業(yè)智能化進(jìn)程中的剛需。

為此,華為推出了FusionCube A3000訓(xùn)/推超融合一體機(jī),面向行業(yè)大模型訓(xùn)練/推理場(chǎng)景,針對(duì)百億級(jí)模型應(yīng)用,集成了OceanStor A300高性能存儲(chǔ)節(jié)點(diǎn)、訓(xùn)/推節(jié)點(diǎn)、交換設(shè)備、AI平臺(tái)軟件與管理運(yùn)維軟件,為大模型伙伴提供拎包入住式的部署體驗(yàn),實(shí)現(xiàn)一站式交付,做到開(kāi)箱即用,2小時(shí)內(nèi)即可完成部署,可以說(shuō)是打通了大模型落地的最后一公里。

訓(xùn)/推節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)均可獨(dú)立水平擴(kuò)展,以匹配不同規(guī)模的模型需求。同時(shí)FusionCube A3000通過(guò)高性能容器實(shí)現(xiàn)多個(gè)模型訓(xùn)練推理任務(wù)共享GPU,將資源利用率從40%提升到70%以上。

在這兩款產(chǎn)品的加持下,無(wú)論是探索智能化天花板的大模型開(kāi)發(fā)訓(xùn)練,還是實(shí)現(xiàn)智能化落地的場(chǎng)景化部署,AI大模型都將得到有力的存力支持。

存力支柱,就這樣樹(shù)立在AI大模型時(shí)代的穹頂下。

未來(lái):存儲(chǔ)支柱向上生長(zhǎng),AI穹頂指向天宇

面向縱深性、長(zhǎng)期化的AI大模型發(fā)展,存儲(chǔ)產(chǎn)業(yè)如何提供持續(xù)的支持與幫助?對(duì)于這個(gè)問(wèn)題,華為在發(fā)布會(huì)當(dāng)中也給出了自己的答案。在華為看來(lái),大模型爆發(fā)并不應(yīng)該僅僅成為存儲(chǔ)產(chǎn)業(yè)的短期機(jī)遇。長(zhǎng)期來(lái)看,AI與存儲(chǔ)應(yīng)該彼此促進(jìn),互為助力,形成長(zhǎng)期積極發(fā)展的良性局面。

為此,華為首先將積極投入未來(lái),持續(xù)在AI數(shù)據(jù)存儲(chǔ)方面進(jìn)行研究和準(zhǔn)備。發(fā)布會(huì)現(xiàn)場(chǎng),周躍峰與華為天才少年張霽進(jìn)行了對(duì)話,討論了華為在數(shù)據(jù)歸集、數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理等方面如何提升存儲(chǔ)能力,幫助AI開(kāi)發(fā)與落地做到更好。

比如說(shuō),面向跨地域歸集的數(shù)據(jù)安全流轉(zhuǎn)難題,華為正在研究被稱為“數(shù)據(jù)方艙”的技術(shù)。這項(xiàng)技術(shù)使得數(shù)據(jù)及其訪問(wèn)權(quán)限、憑證信息實(shí)現(xiàn)全封裝,從而確保在流轉(zhuǎn)過(guò)程中數(shù)據(jù)處于安全、可靠的環(huán)境當(dāng)中。

這類對(duì)于未來(lái)AI技術(shù)發(fā)展趨勢(shì)的預(yù)判與研發(fā)投入,將成為華為在AI存儲(chǔ)領(lǐng)域持續(xù)打開(kāi)產(chǎn)業(yè)空間的鑰匙,也將成為推動(dòng)存儲(chǔ)產(chǎn)業(yè)迎接AI時(shí)代機(jī)遇的新動(dòng)力。

另一方面,想要適配AI大模型帶來(lái)的產(chǎn)業(yè)發(fā)展空間,存儲(chǔ)產(chǎn)業(yè)必須依靠合作,建設(shè)生態(tài),從而才能夠向用戶提供綜合性、行業(yè)性的解決方案。

在生態(tài)化發(fā)展的驅(qū)動(dòng)下,用戶開(kāi)發(fā)大模型、應(yīng)用大模型過(guò)程中多樣性、復(fù)雜性的軟硬件需求將得到持續(xù)滿足,從而確保模型開(kāi)發(fā)、落地暢通無(wú)阻。

整體而言,**華為存儲(chǔ)既為火爆的AI大模型,提供了即刻能夠解決問(wèn)題、實(shí)現(xiàn)資源滿足的存儲(chǔ)解決方案,也著眼未來(lái)發(fā)展,在存儲(chǔ)技術(shù)、生態(tài)上進(jìn)行不斷的革新、生長(zhǎng)。**AI大模型與存儲(chǔ)底座,就像是穹頂與支柱的關(guān)系,支柱越來(lái)越高,穹頂?shù)母叨纫沧匀惶嵘?,智能化的極限才能不斷被打破。

為了能夠建好AI大模型的穹頂,華為存儲(chǔ)帶來(lái)了三方面的價(jià)值,真正實(shí)現(xiàn)了以存儲(chǔ)為支柱的產(chǎn)業(yè)擔(dān)當(dāng)。

首先,面對(duì)數(shù)據(jù)歸集、數(shù)據(jù)訓(xùn)練中斷等一系列真實(shí)存在AI訓(xùn)練部署難題,華為存儲(chǔ)以更好的技術(shù)帶來(lái)了解題思路,提供了應(yīng)對(duì)策略,從而在存儲(chǔ)與AI兩個(gè)技術(shù)領(lǐng)域間架起了橋梁,達(dá)成了供需之間的溝通。

其次,華為面向大模型訓(xùn)練與落地,都提供了資源更加充沛、利用更加合理的存儲(chǔ)底座。這將有助于優(yōu)化大模型的綜合成本,提升各行業(yè)利用大模型,適配大模型的可能性。

再次,華為在存儲(chǔ)領(lǐng)域推動(dòng)的開(kāi)放合作方案,可以推動(dòng)存儲(chǔ)生態(tài)與AI生態(tài)相互促進(jìn)。讓更多軟硬件企業(yè)加入到AI大模型的機(jī)遇中,分享智能時(shí)代紅利,從而全面促進(jìn)存儲(chǔ)產(chǎn)業(yè)的發(fā)展與進(jìn)化。

向下扎到根,向上捅破天的AI存儲(chǔ)支柱,在這些價(jià)值的凝聚下逐漸成型。

用好這根支柱,可以支撐AI大模型發(fā)展,提升大模型從訓(xùn)練到推理的全流程效率。

發(fā)展這根支柱,可以助力千行百業(yè)的智能化落地,打造出智能時(shí)代新的基礎(chǔ)設(shè)施。

站在這根支柱上,我們能夠看到第四次工業(yè)革命的晨光破曉。