版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

拆解“算力偏科”難題,智算中心下一步向何處去?

腦極體
從技術(shù)協(xié)同到產(chǎn)業(yè)革命,從智能密鑰到已知盡頭
收藏

十年前,英國《經(jīng)濟(jì)學(xué)人》曾用工業(yè)用電量為主的指標(biāo)來評估中國GDP,而現(xiàn)在算力已經(jīng)成為新的指標(biāo)。似乎每個(gè)企業(yè)、每個(gè)城市都在努力增加算力。

一位讀者不無困惑地留言,大家都說自己算力有多少FLOPS,能支撐這個(gè)大模型、那個(gè)大數(shù)據(jù),是不是數(shù)字越大就算力越強(qiáng)呢?

還真不是。

衡量算力水平,除了運(yùn)算次數(shù),還要看算力精度,也就是能夠支持的數(shù)據(jù)精度和運(yùn)算復(fù)雜度有多高。

如果說運(yùn)算次數(shù)(FLPOS)代表的是內(nèi)力值,那么算力精度就像是“身法”,決定了能否用對內(nèi)力、用好內(nèi)力。武林對決,有人拿屠龍刀一通亂砍,令狐沖靠獨(dú)孤九劍劍法一擊必中,你覺得誰水平高?

不同計(jì)算任務(wù),對算力需求不盡相同,需要恰當(dāng)?shù)摹吧矸ā保瑏戆l(fā)揮算力的價(jià)值。

具體來說,根據(jù)數(shù)據(jù)類型的不同,適配的算力精度也有所區(qū)別:

比如科學(xué)計(jì)算,天氣預(yù)報(bào)、運(yùn)算化學(xué)、分子模型、天體物理模擬等,數(shù)據(jù)精度要求高,需要雙精度算力(64位,F(xiàn)P64),是由超級計(jì)算機(jī)提供的一種通用算力。

AI模型訓(xùn)練,自動駕駛、智慧城市、AIGC等業(yè)務(wù),需要學(xué)習(xí)大量數(shù)據(jù),訓(xùn)練出一個(gè)復(fù)雜的深度學(xué)習(xí)模型,而處理大規(guī)模浮點(diǎn)型數(shù)據(jù),更適合用單精度算力(32位,F(xiàn)P32)、半精度算力(16位,F(xiàn)P16)。 近年來,預(yù)訓(xùn)練大模型爆發(fā),涌現(xiàn)出了DALLE、ChatGPT、紫東太初等一波波大模型,參數(shù)動輒達(dá)到千億萬億,大模型的高效訓(xùn)練需要用到大量的單精度算力。

訓(xùn)練好并部署的模型,實(shí)際應(yīng)用時(shí)只需要根據(jù)輸入的數(shù)據(jù),推理出各種結(jié)論,比如人臉識別、車牌識別、語音識別等,這個(gè)AI推理的過程,處理的是整數(shù)型數(shù)據(jù),更適用于整型算力(INT8)。

那么問題來了,一般來說,某一個(gè)區(qū)域內(nèi),既有高精尖科研、智慧城市、自動駕駛這類高性能計(jì)算,帶來了通用算力的需求;又要有AI模型訓(xùn)練、AI應(yīng)用推理等來支撐產(chǎn)業(yè)數(shù)轉(zhuǎn)智改,對專用算力的需求也很高。

如果區(qū)域內(nèi)算力配置不夠多樣化,少了某一種算力,相當(dāng)于等用戶上了戰(zhàn)場對敵時(shí),才發(fā)現(xiàn)無招可用或事倍功半,必然會限制當(dāng)?shù)財(cái)?shù)字化的發(fā)展。

因此,各地在進(jìn)行智算中心建設(shè)時(shí),從長遠(yuǎn)來看,就必須考慮算力的多樣化、普適性。

但現(xiàn)實(shí)情況是,很多地方的智算中心,處于“先批快建”、各自為戰(zhàn)的階段,由于AI產(chǎn)業(yè)/科學(xué)計(jì)算/產(chǎn)業(yè)數(shù)字化等迅猛發(fā)展,迫切需要補(bǔ)足某種專用算力,應(yīng)對算力焦渴,缺乏通用算力的統(tǒng)籌規(guī)劃。

隨著東數(shù)西算工程、數(shù)字中國等一系列措施的推進(jìn),進(jìn)入“十四五”發(fā)展新時(shí)期,專用算力的通用化難題,就成為掣肘地方數(shù)字經(jīng)濟(jì)發(fā)展的當(dāng)務(wù)之急。

前不久發(fā)布的《智能計(jì)算中心2.0時(shí)代展望報(bào)告》中也強(qiáng)調(diào),當(dāng)前個(gè)別地區(qū)選擇的算力配置出現(xiàn)一定“偏科”現(xiàn)象,只能滿足一部分細(xì)分場景的需求,不能兼顧多產(chǎn)業(yè)、多領(lǐng)域?qū)θ诤纤懔Φ男枨?。需要推動通用算力、專用算力融合,?qū)動應(yīng)用走向縱深。

對于高校、科研機(jī)構(gòu)、企業(yè)、政府等各類算力用戶來說,算力融合究竟能帶來哪些利好?

破解“算力偏科”,算力融合價(jià)值幾何?

一言以蔽之,算力融合,意味著用戶可以對不同算力資源隨取隨用,無論是辦公數(shù)字化需要的通用算力,還是AI應(yīng)用需要的專用算力,抑或是氣象預(yù)報(bào)、生物預(yù)測等需要的高性能算力,都可以融會貫通、博采眾長,支撐自身業(yè)務(wù)的發(fā)展,成為一個(gè)算力“通才”。

從這個(gè)角度看,通用算力、專用算力的融合,會帶來三重明顯的價(jià)值:

一是數(shù)字經(jīng)濟(jì)的可持續(xù)。數(shù)字經(jīng)濟(jì)已經(jīng)成為各個(gè)區(qū)域發(fā)展的主調(diào),其中包含的算力應(yīng)用場景是非常廣泛的,根據(jù)應(yīng)用場景來進(jìn)行算力部署,更快地建立優(yōu)勢。比如某省會城市希望打造人工智能高地,同時(shí)高校牽頭建立遙感產(chǎn)業(yè)集群,專用算力、通用算力相融合,能支撐更加豐富的應(yīng)用場景,為當(dāng)?shù)財(cái)?shù)字經(jīng)濟(jì)的長期可持續(xù)發(fā)展提供算力保障。

二是綜合成本的下降。算力基礎(chǔ)設(shè)施的建設(shè)成本極高,在前期規(guī)劃時(shí)做好多種算力的配置,能使基礎(chǔ)設(shè)施的利用率提升,既保證算力充足,同時(shí)精益地滿足各類任務(wù)所需,從而提高算力的綜合效益,降低算力的使用成本,讓區(qū)域內(nèi)的算力更加普惠、更多用戶受益。

三是多元供應(yīng)的可靠性。算力融合意味著需要不同計(jì)算單元、多種架構(gòu)并存、多種軟硬件兼容,新型算力基礎(chǔ)設(shè)施走向開放、多元、兼容,相當(dāng)于“不把雞蛋放在一個(gè)籃子里“,能夠降低供應(yīng)鏈的不確定風(fēng)險(xiǎn),長期來看能夠讓算力更加安全可靠。

算力融合,相當(dāng)于一個(gè)武林高手,無論華山劍法、少林功夫、武當(dāng)太極,各種”身法“都能信手拈來,那么面對任一種計(jì)算任務(wù)的挑戰(zhàn),自然可以游刃有余。

縱橫2.0階段:數(shù)字江湖兒女需要怎樣的算力底座

即將到來的數(shù)字經(jīng)濟(jì)浪潮中,每個(gè)人都要化身江湖兒女、弄潮時(shí)代,這時(shí)候,一個(gè)通用性的算力底座,就如同通曉全門派武功身法的“神助攻”,可以提供全精度多元算力,讓用戶更從容地應(yīng)對業(yè)務(wù)變化和挑戰(zhàn)。

國家工業(yè)信息安全發(fā)展研究中心在《報(bào)告》中提出,智算中心在2017-2021年高速擴(kuò)張的1.0階段,主要提供的是專用性的算力。從2022年開始進(jìn)入2.0階段,需要利用CPU與GPU等加速芯片的異構(gòu)重合,來實(shí)現(xiàn)高精度通用算力和低精度專用算力的融合供應(yīng)。

由此可見,智算中心的下一步重點(diǎn),就是向通用算力底座發(fā)展。而建設(shè)這樣一個(gè)通用算力底座,有“一橫一縱“兩個(gè)基本要求:

一橫:多元算力需要多元架構(gòu),智算中心必須“橫向”兼容。

智算中心1.0階段,采用的是垂直一體的煙囪式的方案,針對性地滿足高性能計(jì)算、人工智能、大數(shù)據(jù)計(jì)算等不同的應(yīng)用負(fù)載,通用性和兼容性比較低。多樣化的通用算力底座,要實(shí)現(xiàn)不同架構(gòu)的芯片平臺、不同場上的算法模型以及數(shù)據(jù)集的橫向兼容,讓用戶可以根據(jù)業(yè)務(wù)場景和計(jì)算任務(wù)選擇最適合的算力方案。

一縱:通用算力需要軟硬協(xié)同,智算中心必須“縱向”耦合。

不同技術(shù)路線的芯片、算法、模型、應(yīng)用等要素,需要產(chǎn)業(yè)鏈上下游的打通,解決軟硬件兼容性的問題,芯片制造廠、中端廠商和軟件開發(fā)商,通過軟件優(yōu)化、架構(gòu)整合和軟硬件協(xié)同,來提升計(jì)算的整體性能。

打破垂直一體模式,走向“橫向”兼容“縱向”耦合,成為智算中心2.0時(shí)代的關(guān)鍵,從而支撐千行百業(yè)在數(shù)字時(shí)代縱橫馳騁。

見招拆招:智算中心的未來挑戰(zhàn)

智算中心1.0階段快速擴(kuò)張,統(tǒng)計(jì)數(shù)據(jù)顯示,目前中國已經(jīng)有超過30個(gè)城市在建設(shè)或提出建設(shè)智算中心。未來數(shù)字經(jīng)濟(jì)中80%的場景和算力資源要由智算中心進(jìn)行承載。這是一個(gè)巨大的機(jī)遇,但機(jī)會越大,所應(yīng)該承擔(dān)的責(zé)任也就越大。

如前所說,智算中心在2.0階段必須走向“橫向”兼容“縱向”耦合的目標(biāo),飯要一口口吃,算力融合也要一步步走,把每一個(gè)環(huán)節(jié)做好,見招拆招。

具體來說,智算中心的算力融合,要從四個(gè)核心環(huán)節(jié)來做功,分別是:算力生產(chǎn)、算力聚合、算力調(diào)度、算力釋放。

算力生產(chǎn)方面,要具備多樣化算力的供給能力。為了實(shí)現(xiàn)不同架構(gòu)芯片的多元化融合,智算中心的體系結(jié)構(gòu),已經(jīng)從同構(gòu)計(jì)算走向異構(gòu)計(jì)算,國內(nèi)外的科技企業(yè)如谷歌、英特爾、阿里、百度,都在進(jìn)行異構(gòu)計(jì)算的研發(fā)?!吨悄苡?jì)算中心2.0時(shí)代展望報(bào)告》中,曙光5A級智算中心也憑借全算力精度覆蓋、多樣化算力供應(yīng),成為產(chǎn)業(yè)內(nèi)示范樣例

算力聚合方面,要推動通用算力和專用算力的融合。目前來看,業(yè)界各個(gè)廠家的智算中心建設(shè)理念是比較類似,都在強(qiáng)調(diào)融合發(fā)展。

算力調(diào)度方面,融合的算力如何靈活、精益地為各行各業(yè)所取用呢?這就需要對多樣算力進(jìn)行統(tǒng)一的調(diào)度和運(yùn)營。宏觀來看,在東數(shù)西算工程的推動下,全國算力一體化網(wǎng)絡(luò)體系已經(jīng)初步形成,為智算中心的算力調(diào)度建立了基礎(chǔ)。微觀來看,智算中心的建設(shè)者/參與者也開始建設(shè)算力運(yùn)營平臺,用精細(xì)化、智能化的手段來提高算力運(yùn)營調(diào)度水平,比如曙光智算運(yùn)營的全國一體化算力服務(wù)平臺等。

算力釋放方面,算力融合的本質(zhì)目的是讓千行百業(yè)用好算力、用對算力,所以多樣化算力如何更靈活的釋放到數(shù)字產(chǎn)業(yè)當(dāng)中去,提供算力服務(wù)的應(yīng)用,是智算中心在2.0階段的重中之重。

從產(chǎn)到用、見招拆招,智算中心2.0將是真正意義上的公共算力基礎(chǔ)設(shè)施,把澎湃的內(nèi)力與適配的身法,交給千行百業(yè)。

一個(gè)全新的數(shù)字視界,已經(jīng)向各行各業(yè)的俠士們廣發(fā)英雄帖。廣闊的產(chǎn)業(yè)機(jī)會,等待著大家去爭取,去贏得自己在這個(gè)時(shí)代的勛章。

化多元化算力為己用,打開多元化的未來,智算中心2.0階段,一定會有更多傳奇的人和事。

評論
白開水1972
庶吉士級
已經(jīng)
2023-01-18
柳恩和-基層農(nóng)業(yè)
少傅級
數(shù)字視界將會使日常生活更美好。
2023-01-18
田志光
少傅級
已閱
2023-01-18