如果你想要一臺冰箱,結(jié)果只能買到壓縮機,金屬面板、塑料儲物盒,需要自己進行組裝;如果你想要一臺汽車,結(jié)果拿到一坨橡膠,需要自己從頭造輪胎,你將會是什么心情?
目前AI開發(fā)的狀態(tài)與上面舉的例子很像。熟悉AI的朋友知道,AI應(yīng)用開發(fā)是碎片化、定制化的,場景稍有變化就要重新進行數(shù)據(jù)處理,海量參數(shù)調(diào)優(yōu),反復(fù)迭代。如果模型達(dá)不到期望的目標(biāo),還要把這個過程推倒重來,模型開發(fā)周期動輒一個月,甚至數(shù)月。這種耗費大量人工的方式說明AI開發(fā)還處于作坊模式中。
在2021WAIC期間,華為云盤古預(yù)訓(xùn)練大模型被評選為大會的“鎮(zhèn)館之寶”,為AI帶來了工業(yè)化開發(fā)新模式。我們不妨就著“鎮(zhèn)館之寶”四個字,來掰扯掰扯盤古大模型究竟是什么,預(yù)訓(xùn)練模型又與AI工業(yè)化之間存在著怎樣的關(guān)聯(lián)。
2018年GPT 和 BERT的橫空出世,引發(fā)了AI行業(yè)內(nèi)外的共同關(guān)注。NLP領(lǐng)域的大規(guī)模預(yù)訓(xùn)練模型,從邏輯上來解釋的話,就是采用自監(jiān)督學(xué)習(xí)能力在大規(guī)模算力的支持下學(xué)習(xí)海量參數(shù)的數(shù)據(jù)。這不僅讓NLP算法能力有了革命性突破,還將大量原本需要用戶完成的訓(xùn)練任務(wù)預(yù)先完成。打個比方,這就像學(xué)校先把各種知識教給學(xué)生,讓他有了基本的行業(yè)常識,而不是等到進入企業(yè)之后再從頭識字,從而降低了企業(yè)的培訓(xùn)成本。
如今,大規(guī)模預(yù)訓(xùn)練模型已經(jīng)成為全球主流AI廠商、研究機構(gòu)的“必備功課”,訓(xùn)練參數(shù)與算力投入量也水漲船高。OpenAI在2020年發(fā)布的GPT-3已經(jīng)達(dá)到了1750億參數(shù)量、上萬GPU的驚人訓(xùn)練規(guī)模??梢哉f,大規(guī)模預(yù)訓(xùn)練模型既要考驗廠商的算法創(chuàng)新、調(diào)參與優(yōu)化能力,又是對數(shù)據(jù)能力、并行計算能力、網(wǎng)絡(luò)架構(gòu)能力、開發(fā)工具和能力的全面大考。想要讓AI在廠商一側(cè)就變成工業(yè)化、標(biāo)準(zhǔn)化的“準(zhǔn)完成品”,需要投入的技術(shù)實力與產(chǎn)業(yè)資源都遠(yuǎn)超大部分AI產(chǎn)品。
想要“鎮(zhèn)”住AI工業(yè)化中出現(xiàn)的種種挑戰(zhàn),練就真正能解決問題的AI大模型,需要同時具備高效算法、澎湃算力,海量數(shù)據(jù)吞吐能力基礎(chǔ)。
在2021WAIC開幕式上,華為輪值董事長胡厚崑在演講中介紹了盤古大模型。他認(rèn)為當(dāng)前AI的普及應(yīng)用的瓶頸首先不在技術(shù)上,技術(shù)已經(jīng)有了相當(dāng)?shù)陌l(fā)展,也不在應(yīng)用上,因為應(yīng)用的需求都已經(jīng)蓬勃而出了。它的瓶頸在于開發(fā)的效率上,現(xiàn)在的開發(fā)效率太低,AI應(yīng)用的開發(fā)太慢,它嚴(yán)重阻礙了技術(shù)和需求的結(jié)合。
為了提高AI的開發(fā)效率,華為云聯(lián)合伙伴推出了盤古系列預(yù)訓(xùn)練大模型,包括業(yè)界首個兼具生成與理解能力的中文語言(NLP)大模型和視覺(CV)大模型。
想要具體感知到華為云盤古大模型的能力,我們到WAIC的展館中一探究竟。盤古大模型在現(xiàn)場展示了成語填空、閱讀理解、快速分類三種能力。甚至連 “明明明明明白白白喜歡他,但他就是不說”這種奇葩句子,盤古大模型也能判斷出“白白喜歡誰?”“誰喜歡明明?”等問題。
優(yōu)質(zhì)的大模型需要三個核心能力,即:可以吸收海量數(shù)據(jù)的超大型神經(jīng)網(wǎng)絡(luò)、強壯的網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)秀的泛化能力。華為云盤古預(yù)訓(xùn)練大模型除此之外,還有哪些獨特優(yōu)勢呢?
首先,盤古預(yù)訓(xùn)練大模型擁有領(lǐng)先的技術(shù)創(chuàng)新。
盤古NLP大模型首次使用Encoder-Decoder架構(gòu),兼顧NLP理解與生成的能力,且性能領(lǐng)先;在NLPCC生成任務(wù)上,Rouge score取得第一,比第二名提升60% 以上。該架構(gòu)多任務(wù)學(xué)習(xí)的方法,能夠讓大模型訓(xùn)練更加穩(wěn)定;同時基于提示的微調(diào), 能夠在小樣本學(xué)習(xí)上超越GPT系列。訓(xùn)練盤古NLP大模型使用了40TB的文本數(shù)據(jù),包含了大量的通用知識,同時也沉淀了華為云的許多行業(yè)經(jīng)驗。盤古CV大模型在業(yè)界首次實現(xiàn)了模型的按需抽取,不同部署場景下抽取出的模型體積差異,動態(tài)范圍可達(dá)三個數(shù)量級;提出的基于樣本相似度的對比學(xué)習(xí),憑借小樣本學(xué)習(xí)能力在ImageNet上取得了業(yè)界領(lǐng)先的成績。
其次,盤古預(yù)訓(xùn)練大模型擁有豐富的技術(shù)沉淀及應(yīng)用實踐。
盤古預(yù)訓(xùn)練大模型已經(jīng)在多個行業(yè)、100多個場景成功驗證,包括能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等等。其中,在能源領(lǐng)域,盤古預(yù)訓(xùn)練大模型幫助行業(yè)客戶實現(xiàn)設(shè)備能耗的智能控制,可以節(jié)約電力成本50%;在金融行業(yè)中的異常財務(wù)檢測,讓模型精度提升20%以上; 在塵肺檢測中,病例識別準(zhǔn)確率提升22%等等。
盤古已經(jīng)在近百個行業(yè)場景中進行了應(yīng)用,未來,華為云盤古預(yù)訓(xùn)練大模型還將上線華為云AI資產(chǎn)共享社區(qū)(AI Gallery),將AI能力進一步開放出來。
既名“盤古”,便應(yīng)該去開辟一些什么。翻過AI工業(yè)化的山丘,彼端每一家企業(yè)、每一位開發(fā)者的心中都應(yīng)該有一個“盤古”。