要說(shuō)近期AI圈什么最火,絕對(duì)非ChatGPT莫屬。這個(gè)基于OpenAI最新大語(yǔ)言模型GPT-4的史上最強(qiáng)聊天機(jī)器人,幾乎從誕生第一天起就已「火爆出圈」,成為了從用戶到資本競(jìng)相追逐的香餑餑,幾乎每天都會(huì)占據(jù)AI新聞的頭條。
ChatGPT的橫空出世,離不開(kāi)背后大語(yǔ)言模型GPT-4的支撐,這個(gè)坐擁全球海量用戶數(shù)據(jù),匯聚高效訓(xùn)練算法的大模型,堪稱過(guò)去數(shù)年來(lái)形形色色大模型中的扛鼎之作。
圖片來(lái)源:pixabay
大模型這個(gè)名字本身足夠直白。這里的「大」指的是機(jī)器學(xué)習(xí)模型的規(guī)模,最主要的量度是模型包含的參數(shù)量。
實(shí)際上,自谷歌于2017年首次提出Transformer模型以來(lái),大模型就開(kāi)始走上了一條快速發(fā)展之路。與以往的大模型相比,ChatGPT可以通過(guò)學(xué)習(xí)自然語(yǔ)言中的邏輯和上下文關(guān)系,做到近乎實(shí)時(shí)地完成對(duì)話生成和機(jī)器翻譯等語(yǔ)言處理任務(wù)。
一、BERT首開(kāi)先河
以Transformer的面世為契機(jī),谷歌在接下來(lái)的很長(zhǎng)時(shí)間里都走在了大模型領(lǐng)域的前列。
2018年,谷歌發(fā)布基于Transformer的BERT,成為NLP大模型發(fā)展的里程碑和分水嶺。在參數(shù)量方面,BERT 12層模型參數(shù)量達(dá)到1.1億,24層模型更是達(dá)到了3.4億。與傳統(tǒng)的單向語(yǔ)言模型或者把兩個(gè)單向語(yǔ)言模型進(jìn)行淺層拼接的方法進(jìn)行預(yù)訓(xùn)練相比,BERT采用新的掩碼語(yǔ)言建模(MLM),能生成深度的雙向語(yǔ)言表征。
新方法帶來(lái)了立竿見(jiàn)影的性能提升,BERT在11個(gè)NLP任務(wù)中獲得了最好的SOTA結(jié)果,幾乎把能刷的榜單刷了個(gè)遍,引發(fā)業(yè)界震動(dòng)。
BERT的問(wèn)世,在全球范圍內(nèi)迅速掀起了一股大模型的狂潮。越來(lái)越多的科技巨頭開(kāi)始在大模型上發(fā)力,而B(niǎo)ERT的3.4億參數(shù),僅僅是個(gè)起點(diǎn)。
從十億,到萬(wàn)億
2019年,OpenAI推出了15億參數(shù)的GPT-2,具備生成連貫文本和初步的閱讀理解、機(jī)器翻譯等功能。緊接著,英偉達(dá)發(fā)布了威震天(Megatron-LM),參數(shù)達(dá)到83億;谷歌推出T5模型,參數(shù)達(dá)到110億;微軟推出「Turing-NLG」模型,參數(shù)量增至170億。
從十億級(jí)到百億級(jí),大模型在一年內(nèi)邁出了重要步伐。之后,大模型進(jìn)一步躍升,完成了從百億到千億、萬(wàn)億參數(shù)的三次飛躍。OpenAI于一段時(shí)間后推出了1750億參數(shù)的GPT-3,它不僅能寫(xiě)文章、回答問(wèn)題、翻譯,還具備多輪對(duì)話、敲代碼、進(jìn)行數(shù)學(xué)計(jì)算等多種能力。
隨后,谷歌發(fā)布了Switch Transformer架構(gòu),將語(yǔ)言模型的參數(shù)量擴(kuò)展到了1.6萬(wàn)億,再次刷新了大模型的參數(shù)紀(jì)錄。后來(lái),谷歌大腦的Jeff Dean與斯坦福大學(xué)副教授、基礎(chǔ)模型創(chuàng)始人Percy Liang等人發(fā)表論文,指出大模型具有「涌現(xiàn)」效應(yīng),通過(guò)擴(kuò)大模型參數(shù),讓大模型獲得之前不具備的新能力,這一過(guò)程是不可預(yù)測(cè)的。該論文為大模型參數(shù)進(jìn)一步擴(kuò)大提供了理論依據(jù)。
除了國(guó)外科技企業(yè),國(guó)內(nèi)企業(yè)和科研機(jī)構(gòu)也投入大量資源。百度發(fā)布了預(yù)訓(xùn)練大模型文心ERNIE 1.0,后來(lái)將其應(yīng)用到搜索業(yè)務(wù),賦予搜索相關(guān)性、深度問(wèn)答和內(nèi)容理解等功能。
隨后,中國(guó)AI學(xué)界推出了第一個(gè)超大規(guī)模預(yù)訓(xùn)練模型「悟道」。不久后,1.75萬(wàn)億參數(shù)的「悟道 2.0」問(wèn)世,在預(yù)訓(xùn)練模型架構(gòu)和微調(diào)算法上實(shí)現(xiàn)了理論創(chuàng)新,在多個(gè)AI性能測(cè)試榜單上取得了領(lǐng)先地位。
目前,華為、阿里巴巴、浪潮等國(guó)內(nèi)企業(yè)都相繼推出了自己的大模型,一時(shí)間已成百花齊放、遍地開(kāi)花之勢(shì)。
三、AI新賽道前途無(wú)量
最近,IDC發(fā)布《2022中國(guó)大模型發(fā)展白皮書(shū)》。數(shù)據(jù)顯示,自2020年起,國(guó)內(nèi)大模型數(shù)量驟增,僅2020年到2021年,便從2個(gè)增至21個(gè),和美國(guó)量級(jí)同等,大幅領(lǐng)先于其他國(guó)家。
IDC預(yù)測(cè),2026年中國(guó)人工智能軟件及應(yīng)用市場(chǎng)規(guī)模將達(dá)到211億美元,對(duì)于開(kāi)發(fā)門檻高、應(yīng)用場(chǎng)景復(fù)雜多樣、對(duì)場(chǎng)景標(biāo)注數(shù)據(jù)依賴等問(wèn)題,大模型可能成為最有效的解決方法。
而針對(duì)模型規(guī)模過(guò)大,訓(xùn)練成本太高等問(wèn)題,國(guó)內(nèi)外的企業(yè)和研究機(jī)構(gòu)正朝著專一化、精細(xì)化的應(yīng)用落地方向不斷探索。
由于大模型「一次開(kāi)發(fā),終身使用」的特性,后續(xù)應(yīng)用無(wú)需投入大量標(biāo)注數(shù)據(jù)及從頭訓(xùn)練調(diào)參,應(yīng)用效率明顯提升。另一方面,大模型的出色泛化能力,也為其在不同領(lǐng)域大展身手創(chuàng)造了條件。
放眼未來(lái),可以預(yù)見(jiàn)的是,千億萬(wàn)億級(jí)參數(shù)的「巨無(wú)霸」不再是高高在上的龐然大物,而會(huì)化作一個(gè)個(gè)天才作家、畫(huà)家、音樂(lè)家和詩(shī)人,為人類文明添磚加瓦。
文章由科普中國(guó)-星空計(jì)劃(創(chuàng)作培育)出品,轉(zhuǎn)載請(qǐng)注明來(lái)源。
作者:管心宇 科普作者
審核:于旸 騰訊玄武實(shí)驗(yàn)室負(fù)責(zé)人