在聯(lián)合國總部的花園里,矗立著一尊青銅雕塑,名為“Let Us Beat Swords into Plowshares”,一個(gè)人手拿錘子,正在將劍改鑄為犁——“鑄劍為犁”,代表了近一個(gè)世紀(jì)以來,人類社會(huì)對(duì)于文明與發(fā)展的共識(shí):將武器變?yōu)閯?chuàng)造的工具,以造福全人類。
而在人工智能領(lǐng)域,作為發(fā)展關(guān)鍵技術(shù)的預(yù)訓(xùn)練大模型,也同時(shí)具備了劍與犁的兩種屬性——
開疆做劍:大模型在全球掀起了軍備競賽,參數(shù)規(guī)模不斷升級(jí),文心等大模型的出現(xiàn),意味著中國將這一AI利器握在了手中,守住了智能科技的疆土;
開荒做犁:借助大模型強(qiáng)大的通用能力和開源開放,千行百業(yè)和開發(fā)者也因此受益,不必從零開始,可以低門檻地“開荒”引入AI,啟動(dòng)智能化轉(zhuǎn)型升級(jí)。
近幾年,面對(duì)全球經(jīng)濟(jì)和政治形勢(shì)的不確定性,人們從未如此迫切地渴望過,將科技“鑄劍為犁”,大模型也應(yīng)當(dāng)從軍備競賽變?yōu)楫a(chǎn)業(yè)發(fā)展的新動(dòng)能。
如何才能讓大模型“鑄劍為犁”、服務(wù)于民生百業(yè)?我回想起了一件往事。
2019年的時(shí)候,大模型還算是各大科技巨頭的“不傳之秘”,某實(shí)驗(yàn)室就因?yàn)椴辉敢忾_放最新的大模型,被業(yè)界嘲諷是CloseAI(封閉AI)。而百度在當(dāng)年發(fā)布了中國首個(gè)正式開放的預(yù)訓(xùn)練模型ERNIE 1.0(產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型文心的前身),卻沒有藏器待時(shí),而是直接開啟了大模型落地應(yīng)用的探索,聚焦“產(chǎn)業(yè)智能化”。
這件事令我記憶猶新,可以說,以百度為代表的中國AI力量,在大模型趨勢(shì)初現(xiàn)之際,就選擇了“鑄劍為犁”、造福產(chǎn)業(yè)的發(fā)展方向。
那么,時(shí)間來到2022年春,大模型能夠?yàn)槠胀ㄈ撕颓邪贅I(yè)所用了嗎?
4月16日,在剛剛結(jié)束的2021百度認(rèn)知AI創(chuàng)意賽“AI創(chuàng)意派”決賽現(xiàn)場,我得到了AI大模型一些最新動(dòng)向。簡單來說:1.大模型加速落地應(yīng)用,展現(xiàn)出走進(jìn)產(chǎn)業(yè)深處的無限可能;2.文心大模型應(yīng)用門檻持續(xù)降低,公眾首次參賽,釋放出AI創(chuàng)意的無限遐想。
在這個(gè)乍暖還寒的春天,跟大家分享一下產(chǎn)業(yè)和個(gè)人,如何在當(dāng)下用AI大模型種植希望。
幾度春風(fēng):AI大模型走進(jìn)產(chǎn)業(yè)的百花深處
在你的印象中,都是哪些人在使用AI大模型?用GPT3訓(xùn)練出“碾壓人類”小作文的,是世界頂尖算法工程師;用AlphaFold預(yù)測蛋白質(zhì)的,是全球頂級(jí)AI實(shí)驗(yàn)室;還有炸裂眼球的AI for science大模型,是為預(yù)算幾乎無上限的科學(xué)任務(wù)所準(zhǔn)備的……這些AI大模型,千行百業(yè)的普通人不會(huì)用,也用不起。
難道,大模型注定與普通人無緣了?在2021百度認(rèn)知AI創(chuàng)意賽“AI創(chuàng)意派”上,百度文心大模型,為我們展現(xiàn)了另一種打開方式。
正如百度集團(tuán)副總裁吳甜在比賽現(xiàn)場所說:“只有人工智能和大模型的門檻,低到了所有人都可方便地用起來,才能真正大規(guī)模爆發(fā)出各種創(chuàng)意。本次創(chuàng)意賽中,選手展現(xiàn)了基于文心大模型的豐富創(chuàng)意,讓我們看到了大模型廣泛應(yīng)用的前景。”
這個(gè)“鑄劍為犁”的產(chǎn)業(yè)化過程,是怎么發(fā)生的?
第一步:技術(shù)的鍛造。
與實(shí)驗(yàn)室里的算力怪獸、規(guī)模巨獸不同,面向產(chǎn)業(yè)落地應(yīng)用的大模型,還有許多技術(shù)難題需要攻克,解決成本、效率、部署等問題。為此,百度做了許多技術(shù)創(chuàng)新工作。
一方面,不斷提升參數(shù)規(guī)模和模型效果。2021年12月,ERNIE 3.0 升級(jí)為全球首個(gè)知識(shí)增強(qiáng)千億大模型,成為目前為止全球最大的中文單體模型,這也意味著通用能力更出色,泛化能力更強(qiáng),只需學(xué)習(xí)少量行業(yè)數(shù)據(jù),就能夠應(yīng)用于很多業(yè)務(wù)場景,降低企業(yè)的應(yīng)用門檻。
另一方面,為了保證超大規(guī)模模型的學(xué)習(xí)效果,百度產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)飛槳自主研發(fā)了端到端自適應(yīng)分布式訓(xùn)練框架與4D混合并行技術(shù),有效支持文心大模型高效穩(wěn)定的訓(xùn)練,讓產(chǎn)業(yè)用戶可以低成本地使用。
在技術(shù)的錘煉下,才能鍛造出一個(gè)產(chǎn)業(yè)可用、好用的大模型,真正支撐產(chǎn)業(yè)應(yīng)用。此次吳甜也提到,大模型未來的發(fā)展趨勢(shì)之一,將是技術(shù)的持續(xù)創(chuàng)新。
第二步:產(chǎn)業(yè)的熔爐。
目前,產(chǎn)業(yè)在落地應(yīng)用AI上遇到的普遍阻礙,就是行業(yè)know-how與AI模型的不相融,無法解決真實(shí)復(fù)雜的業(yè)務(wù)問題。傳統(tǒng)深度學(xué)習(xí)是“蠻力計(jì)算”,無法理解數(shù)據(jù)深層的含義。
作為產(chǎn)業(yè)級(jí)大模型,文心與其他大模型的核心差異之一,就是為產(chǎn)業(yè)與AI的融合增加了一個(gè)關(guān)鍵的催化劑——“知識(shí)增強(qiáng)”,將大規(guī)模知識(shí)與深度學(xué)習(xí)相結(jié)合,讓AI能夠理解特定領(lǐng)域數(shù)據(jù)背后所隱含的知識(shí)關(guān)系,從而提升理解能力。
舉個(gè)例子,病歷質(zhì)量控制對(duì)于醫(yī)療行業(yè)非常重要,但掌握全科醫(yī)學(xué)知識(shí)的醫(yī)生很少,醫(yī)院病案科的醫(yī)生在進(jìn)行抽檢工作時(shí),病歷數(shù)量多,工作難度大,依靠有限的知識(shí)很難對(duì)所有病歷做出非常準(zhǔn)確的分析和判斷。如果AI算法不能理解醫(yī)學(xué)知識(shí),也無法很好地幫助病案科工作提質(zhì)增效。百度在文心大模型基礎(chǔ)上加入了藥典、醫(yī)學(xué)大百科等一系列知識(shí),再基于大模型訓(xùn)練出醫(yī)療相關(guān)的模型,達(dá)到醫(yī)學(xué)博士的水平,可以對(duì)每份病案進(jìn)行秒級(jí)別的智能掃描分析,從而有效提升了病案質(zhì)控的工作效率。
第三步:大生產(chǎn)的模具。
從農(nóng)業(yè)生產(chǎn)到工業(yè)制造,規(guī)?;笊a(chǎn)必不可少的就是標(biāo)準(zhǔn)化模具的出現(xiàn)。AI的規(guī)模化應(yīng)用,也離不開一系列配套工具與平臺(tái)。
目前,文心大模型支持?jǐn)?shù)百家企業(yè)與機(jī)構(gòu),開發(fā)者數(shù)量超過6萬,對(duì)外日調(diào)量已經(jīng)超過了五千萬次。這是因?yàn)?,借助百度飛槳、百度大腦等平臺(tái)和工具,文心大模型的能力能夠被各行各業(yè)開發(fā)者低門檻地應(yīng)用。
以飛槳企業(yè)版零門檻AI開發(fā)平臺(tái)EasyDL為例,其就基于文心大模型推出了高精度NLP模型,最快15分鐘就可以完成垂直領(lǐng)域的模型訓(xùn)練。哪怕是沒有AI基礎(chǔ)的金融、法律等從業(yè)人士,也能通過EasyDL一站式自動(dòng)化訓(xùn)練,用少量數(shù)據(jù)構(gòu)建出自動(dòng)分析合同條款、自動(dòng)分析金融研報(bào)等定制模型。
這些配套工具與平臺(tái)的支撐,讓文心大模型能夠進(jìn)入規(guī)模化應(yīng)用階段。因此,吳甜也認(rèn)為2022年將是文心大模型產(chǎn)業(yè)落地的關(guān)鍵年。
從科學(xué)家和工程師手中的神兵利器,到普通人和千行百業(yè)的繩墨爐錘,文心大模型“鑄劍為犁”,與產(chǎn)業(yè)共同孕育出了百花齊放的智能之春。
低吟淺唱:放飛AI大模型的無盡想象
哥倫布發(fā)現(xiàn)美洲之后,辣椒進(jìn)入了人類的餐桌;萊特兄弟對(duì)天空的向往,拉開了飛行的序幕;喬布斯天才般的創(chuàng)意,智能手機(jī)開始主宰你我的生活……每一次技術(shù)浪潮,都少不了天才人物的神來之筆,用創(chuàng)意點(diǎn)燃了新技術(shù)的無限想象。
AI時(shí)代,大家都不希望中國只能跟在別人身后亦步亦趨,但是,創(chuàng)意從哪里來?
百度給出了一個(gè)答案:“創(chuàng)意在民間?!卑俣燃瘓F(tuán)副總裁吳甜在AI創(chuàng)意派的比賽現(xiàn)場這樣說道。
民間,意味著要讓AI大模型為最廣泛的人才所用,無論技術(shù)水平高低都能參與其中。
此次比賽中,百度首次將AI大模型的使用門檻降到了大眾級(jí)別,吸引了全國各地近2000名不同年齡、不同技術(shù)基礎(chǔ)的選手?!皹分矄柎稹表?xiàng)目的開發(fā)者林杰,就是一個(gè)農(nóng)業(yè)公司的產(chǎn)品負(fù)責(zé)人,沒有上手開發(fā)過。這次基于飛槳EasyDL平臺(tái)使用ERNIE 3.0,林杰的開發(fā)過程還挺順利,一步步訓(xùn)練出了能夠解答植物問題的DEMO。最近打算自己種菜的朋友越來越多,說不定未來林杰的產(chǎn)品真能拯救植物殺手們。
民間,意味著AI創(chuàng)新會(huì)貼近真實(shí)生活,大模型要能夠解決大量細(xì)節(jié)而具體的問題。
本次創(chuàng)意賽的300多份創(chuàng)意方案中,有不少是大廠想不到,普通人卻特別期待的。比如哈工大大二學(xué)生煥宜就用六天時(shí)間,打造了一個(gè)“朋友圈古風(fēng)文案小能手”,只要有圖片,分分鐘讓你變身文案達(dá)人,在朋友圈裝一把文人墨客,吸引點(diǎn)贊無數(shù)。
民間,意味著未知的場景和挑戰(zhàn),大模型會(huì)遭遇各種意想不到的用途和場景,也能在實(shí)踐中得到檢驗(yàn)和提升。一個(gè)出乎意料的創(chuàng)意就是“反詐疫苗機(jī)器人”。
反詐App我下過、疫苗我打過、機(jī)器人我玩過,但這個(gè)“反詐疫苗機(jī)器人”究竟是啥,還真是一頭霧水。原來,開發(fā)者郭成(化名)對(duì)自己奶奶的各種反詐騙經(jīng)歷印象深刻,就有了用NLP技術(shù)來幫助弱勢(shì)群體識(shí)別詐騙套路的想法。報(bào)名參賽后,郭成利用百度ERNIE 3.0大模型開發(fā)了一個(gè)對(duì)話機(jī)器人,用戶跟它對(duì)話就能從實(shí)踐中汲取反詐經(jīng)驗(yàn),提高防騙能力,相當(dāng)于打了一針“思想疫苗”。要理解騙子們狡詐詭譎的語言套路,自然就需要機(jī)器人具備極高的語義理解、意圖識(shí)別等能力,而這正是ERNIE 3.0大模型的優(yōu)勢(shì)之一。
對(duì)于廣大圍觀群眾來說,一場比賽的創(chuàng)意可能無法全部落地變?yōu)楝F(xiàn)實(shí)。但每一個(gè)參賽者,一定能夠從項(xiàng)目實(shí)踐中,感受到大模型的真正實(shí)力。而AI大模型落地應(yīng)用的無限可能,就藏在這些關(guān)注的眼眸、放飛的腦洞之中。
一犁新雨破春耕:文心為智能時(shí)代寫下風(fēng)物詩
如果說,文心大模型深入產(chǎn)業(yè),是從誕生之初就開始的“潤物細(xì)無聲”,那么剛剛結(jié)束的AI創(chuàng)意賽就像是一犁新雨破春耕,讓我們格外清晰地看到,大模型如何為AI規(guī)?;瘧?yīng)用插上騰飛的翅膀。
原因也很簡單,大模型要服務(wù)于產(chǎn)業(yè),必須能夠解決那些具體的、細(xì)節(jié)的、工程化的問題。AI科學(xué)家們討論的是模型收斂、魯棒性、認(rèn)知智能這類專業(yè)問題,而當(dāng)大模型走進(jìn)千行百業(yè),遭遇的問題則是如同參賽者們提出的一樣:如何找到合適的數(shù)據(jù)集?買不到GPU怎么訓(xùn)練?不會(huì)調(diào)參該如何操作?結(jié)果不符合預(yù)期怎么辦?
大模型要“鑄劍為犁”,就必須指導(dǎo)并幫助產(chǎn)業(yè)人士解決這些現(xiàn)實(shí)問題。顯然,通過這次AI創(chuàng)意賽,對(duì)于上述問題,百度已經(jīng)有了成功的探索和答案。當(dāng)然,這不僅僅是文心大模型的功勞,而是百度通過一整套體系,確保大模型能力被融合到產(chǎn)業(yè)智能化升級(jí)中。
最核心的,就是飛槳與大模型的融合。前面提到的飛槳開發(fā)出4D混合并行策略、自適應(yīng)分布式訓(xùn)練等,有效地支持文心大模型高效穩(wěn)定訓(xùn)練,還有飛槳EasyDL等開發(fā)平臺(tái)和工具,也早已開源給社會(huì)各界使用。飛槳與大模型的強(qiáng)強(qiáng)聯(lián)手、融合發(fā)展,成為一個(gè)技術(shù)領(lǐng)先、自主創(chuàng)新、能力堅(jiān)實(shí)、產(chǎn)業(yè)可用的AI大底座,有力地支撐中國產(chǎn)業(yè)智能化轉(zhuǎn)型。
接下來,是云與大模型的融合。產(chǎn)業(yè)智能化呼喚著更敏捷、簡單、低成本的AI獲取方式,云服務(wù)成為各行各業(yè)引入AI大模型、基礎(chǔ)算法、AI算力等的必經(jīng)之路。在這樣的大背景下,百度很早就推動(dòng)了AI與云的深度融合,百度智能云作為百度AI技術(shù)的產(chǎn)業(yè)出口,正在將文心大模型推向越來越多的產(chǎn)業(yè)場景。
當(dāng)然,大模型的發(fā)展也離不開與人才生態(tài)的融合。提到AI人才教育,似乎總是伴隨著嚴(yán)肅和焦慮,其實(shí)不然。中國人所向往的教育最高境界,是“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,風(fēng)乎舞雩,詠而歸”。而AI創(chuàng)意賽恰恰讓我有了這種感受,在文心大模型的臂膀托舉下,無數(shù)創(chuàng)意自由地、輕盈而舒展地飛揚(yáng)。當(dāng)普通人也能且歌且行,融入AI創(chuàng)意的洪流,我們還會(huì)擔(dān)心聽不到AI創(chuàng)新的聲音嗎?
經(jīng)過三年耕耘,百度為AI大模型確立了從研致用的新范式,推動(dòng)大模型走向“鑄劍為犁”、服務(wù)產(chǎn)業(yè)的新階段。
隨著更多人與產(chǎn)業(yè)加入大模型的合唱,一首智能時(shí)代的風(fēng)物詩,將飄揚(yáng)在華夏大地的每一個(gè)角落。