版權歸原作者所有,如有侵權,請聯(lián)系我們

大模型走向產(chǎn)業(yè)的一小步,AI走向普惠的一大步

腦極體
原創(chuàng)
從技術協(xié)同到產(chǎn)業(yè)革命,從智能密鑰到已知盡頭
收藏

蒸汽機,在工業(yè)革命中扮演著怎樣的角色?

保爾·芒圖在《十八世紀產(chǎn)業(yè)革命》中是這樣形容蒸汽機的:“蒸汽機并不創(chuàng)造大工業(yè)。但是它卻為大工業(yè)提供了動力,更重要的是使大工業(yè)具有統(tǒng)一性。使用蒸汽機,使一切工業(yè)的發(fā)展都要服從一般的法則,工業(yè)世界成為一個巨大的工廠。”

可以說,蒸汽機是工業(yè)革命的心臟,是手工生產(chǎn)走向模塊化、標準化的通道。此后每一次產(chǎn)業(yè)革新中,世界的優(yōu)先任務都是尋找那部“蒸汽機”。當深度學習推動AI技術又一次復興,人類對它的最高期待,就是讓AI成為第四次產(chǎn)業(yè)革命中的“蒸汽機”。而近幾年身處智能革命前沿的,就是預訓練大模型。

然而必須正視的是,全球大模型競賽中,我們看到大模型的參數(shù)越來越大,數(shù)據(jù)集記錄不斷被刷新。但真正的產(chǎn)業(yè)空間里,卻很難看到大模型規(guī)?;藴驶瘧?。這可能是因為大模型與行業(yè)知識不相匹配,行業(yè)算力基礎難以負載大模型部署等等問題。我們似乎一直都在造一臺不能走進工廠的“蒸汽機原型機”。

在中學課本里,我們都知道是瓦特改良了蒸汽機,卻沒有提是誰發(fā)明了蒸汽機。其原因在于,瓦特真正解決了蒸汽機走向應用的問題,從技術、產(chǎn)品、商業(yè)模式等問題上讓蒸汽機具有與行業(yè)結合的可行性。

就在剛剛,似乎大模型也跨出了這歷史性的一步。

百度與國家電網(wǎng)、浦發(fā)銀行等行業(yè)頭部企業(yè)聯(lián)合研發(fā),融合了通用數(shù)據(jù)和行業(yè)特有知識,推出知識增強能源行業(yè)NLP大模型國網(wǎng)-百度·文心,和知識增強的金融行業(yè)NLP大模型浦發(fā)-百度·文心,顯著提升了大模型在行業(yè)任務上的應用效果。

“行業(yè)大模型”,這個我們從沒聽說過的概念背后,是大模型走向應用化的開端,是百度多年探索深度學習技術走向產(chǎn)業(yè)的又一次瓜熟蒂落。

5月20日,由深度學習技術及應用國家工程研究中心主辦、百度飛槳承辦的WAVE SUMMIT 2022深度學習開發(fā)者峰會在線上舉行。期間,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰博士發(fā)表主題演講,提出“產(chǎn)業(yè)級深度學習開源開放平臺飛槳助力人工智能越來越普惠,賦能千行百業(yè),惠及千家萬戶”。

2019年的WAVE SUMMIT,王海峰提出深度學習技術已經(jīng)具備通往工業(yè)大生產(chǎn)的條件,并且明確了標準化、模塊化、自動化的三大特征。彼時開始,百度與AI開發(fā)者、各行業(yè)AI應用者共同開始了一場在21世紀筑造蒸汽機的旅程。如今,王海峰指出在AI工業(yè)大生產(chǎn)階段,深度學習技術的通用性越來越強,深度學習平臺的標準化、自動化和模塊化特征越來越顯著,深度學習應用越來越廣泛且深入,已經(jīng)遍地開花。

技術、平臺、應用三層標準,是一項技術走向產(chǎn)業(yè)普適的核心?;氐秸羝麢C的故事,瓦特也是改寫了蒸汽機的這三大要素。在技術上實現(xiàn)了氣缸恒熱,確保了機械效率;在平臺上實現(xiàn)了器件的標準化,工廠能買到可維護、可換新的產(chǎn)品;在應用上則與大量工廠主合作,讓蒸汽機走進經(jīng)濟生產(chǎn)。就這樣,原本昂貴、效率差、損壞率高的蒸汽機,變成了高效、低門檻的工業(yè)化代名詞。

今天,百度和中國AI產(chǎn)業(yè)也在進行這樣的探索。大模型讓深度學習的技術效能不斷增強,飛槳實現(xiàn)了AI工業(yè)大生產(chǎn)所需的平臺化支撐,百度與各行業(yè)開發(fā)者的合作,讓AI應用之花開遍了中國原野。

在WAVE SUMMIT 2022,我們可以清晰看到深度學習技術,預訓練大模型,是如何一步步變成那臺“蒸汽機”的。

大模型做實,從無盡跑分轉向全面可用

預訓練大模型是近幾年AI產(chǎn)業(yè)最火熱的技術名詞。拼模型參數(shù),拼任務集完成效果,是廠商推出大模型后最喜歡做的幾件事。換個角度看,大模型依舊處在“無盡跑分”的初級階段。

從高分到高能,大模型距離現(xiàn)實中的產(chǎn)業(yè)場景還有不短的路程要走。比如很多產(chǎn)業(yè)需求無法用通用模型來處理,技術與使用場景之間存在代溝。再比如超大規(guī)模模型在部署時會面臨一系列問題,比如算力、調(diào)參難度、硬件兼容性等。

讓大模型從“跑分考場”走向千行百業(yè),需要一場全面的轉向。而這就是今年WAVE SUMMIT最亮眼的一個發(fā)布和升級。

百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜表示,今年是大模型產(chǎn)業(yè)落地的關鍵年,飛槳文心大模型通過搭建更適配場景需求的大模型體系,提供全流程支持應用落地的工具、平臺和方法,建設激發(fā)創(chuàng)新的開放生態(tài),解決大模型技術與場景需求匹配的關鍵問題。

面向行業(yè)智能化需求,百度圍繞大模型產(chǎn)業(yè)級與知識增強兩大關鍵詞,公布了全新的飛槳文心大模型全景圖。在模型方面,形成基礎大模型、任務大模型、行業(yè)大模型的三級體系,以更有效地支持應用需求,并發(fā)布10個全新的大模型;為促進大模型惠及最廣泛的行業(yè)與開發(fā)者,還配套發(fā)布大模型套件、API、平臺,并建設大模型創(chuàng)意和探索社區(qū)旸谷,來幫助開發(fā)者更低門檻地應用。

文心大模型家族新增的十個大模型,基礎大模型包括融合任務相關知識的千億大模型ERNIE 3.0 Zeus、多任務視覺表征學習VIMER-UFO 2.0、商品圖文搜索表征學習VIMER-UMS、文檔圖像表征學習VIMER-StrucTexT 2.0、語音-語言跨模態(tài)大模型ERNIE-SAT和地理-語言跨模態(tài)大模型ERNIE-GeoL,任務大模型包括面向生物計算領域的化合物表征HELIX-GEM、蛋白質結構分析HELIX-Fold。

尤其值得注意的,還有文心大模型在業(yè)界首次打造發(fā)布的兩個行業(yè)大模型,實現(xiàn)了通用模型為主干,任務模型面向具體需求,行業(yè)模型面向具體產(chǎn)業(yè)的“三元化結構”,從而使得不同需求、不同行業(yè)的開發(fā)者可以第一時間找尋到大模型的落地方案,不再“望大模型而興嘆”。

最新發(fā)布的行業(yè)大模型,包括國網(wǎng)-百度·文心電力行業(yè)大模型和浦發(fā)-百度·文心金融行業(yè)大模型。背后是百度與國家電網(wǎng)、浦發(fā)銀行等行業(yè)頭部企業(yè)進行了聯(lián)合研發(fā)與創(chuàng)新,更好地融合了通用數(shù)據(jù)和行業(yè)特有知識,從而有效提升了大模型在電力、金融領域的行業(yè)任務應用效果。

行業(yè)大模型可以說是一個業(yè)界期待了很久的轉折點。從拼數(shù)值到效果落地,大模型需要一個轉向應用化,強聯(lián)接產(chǎn)業(yè)的范式與方法,而行業(yè)大模型則正填補了這一空白。

除此之外,百度還發(fā)布了圍繞大模型的全新開發(fā)套件,讓開發(fā)者可用高效率應用大模型開發(fā),同時提供相應的平臺功能與API服務,進一步降低大模型使用門檻;在生態(tài)建設方面,文心大模型將共享飛槳生態(tài),通過基于文心大模型推出的創(chuàng)意社區(qū)——文心·旸谷大模型創(chuàng)意與探索社區(qū),讓更多用戶感受到文心大模型的應用潛力。

2022年,歐美科技公司依舊執(zhí)著在大模型參數(shù)上不斷強化,再強化;而百度AI則將大模型轉向了行業(yè)場景與真實需求。這個分叉路口的交錯,會給未來提供太多可能性。

飛槳做深,支撐大模走向產(chǎn)業(yè)

無論是傳統(tǒng)的深度學習模型還是大模型,都離不開開發(fā)平臺的有效支撐。百度能夠推動大模型快速走向產(chǎn)業(yè)化落地,從產(chǎn)業(yè)需求中真實吸收和提煉大模型的升級方向,本質上離不開深度學習平臺飛槳,已經(jīng)建立了與開發(fā)者、產(chǎn)業(yè)界、學界的高效溝通通道。

在飛槳的生態(tài)基礎上,百度可以最快速看到中國AI場景與開發(fā)者的需求,以高速的頻率做出回饋,最終組成產(chǎn)業(yè)需求與平臺供給之間的急速互動。放眼全球AI產(chǎn)業(yè),這可能是技術、平臺、產(chǎn)業(yè)之間互動的最佳范式。

每次WAVE SUMMIT,我們都能看到飛槳進行巨量的技術升級,讓人感覺似乎已經(jīng)不可能有新的升級空間,然后又一次次完成突破。這背后就是最懂中國需求,與產(chǎn)業(yè)智能同在的飛槳范式。

在技術、場景、生態(tài)的三大領域,飛槳完成了進一步深化。深挖技術方面,飛槳框架v2.3正式發(fā)布。沿著動靜統(tǒng)一的框架設計理念,繼續(xù)將開發(fā)效率與靈活性結合到一起,讓開發(fā)平臺突破性達到了更加成熟的狀態(tài)。同時也將模型壓縮技術進行了升級,提升了深度學習模型的自動化部署能力。

在平臺層面,飛槳推出了最懂中國AI場景的訓推一體導航圖,打通了全流程的智能導航,更新了產(chǎn)業(yè)模型庫和產(chǎn)業(yè)實踐,讓開發(fā)者可以更低門檻獲得開發(fā)經(jīng)驗與開發(fā)能力。與此同時,支撐科學計算的PaddleScience賽槳,以及便攜式AI工作站,也解決了現(xiàn)實場景中最迫切的AI開發(fā)需求。

在生態(tài)領域,飛槳提出了共建硬件生態(tài)圈的新行動。AI落地行業(yè)場景,是不可能離開硬件適配與算力底座的。這可能是很多算法為核心的AI企業(yè)很少提到的話題,卻是產(chǎn)業(yè)智能化不能規(guī)避的一面。在飛槳一步步走向AI工業(yè)大生產(chǎn)平臺的過程里,也在一步步探索與硬件廠商合作、互補,組成生態(tài)。在2020年,飛槳還是更多去尋找硬件合作伙伴,達成兼容性合作,也就是共聚階段。那一年,百度與13家伙伴聯(lián)合發(fā)起了飛槳硬件生態(tài)圈,促進AI產(chǎn)業(yè)鏈的適配升級;2021年,硬件伙伴開始與飛槳共同創(chuàng)新,共同研發(fā)更好的AI落地方式,共同創(chuàng)新開始成為飛槳硬件生態(tài)的推動力;時間來到今天,飛槳的硬件生態(tài)已經(jīng)初具規(guī)模,合作進一步深化,實現(xiàn)了全面共創(chuàng)。如今,百度已經(jīng)和硬件伙伴一起推出廠商版飛槳框架、建設模型庫、開發(fā)課程,共同加速產(chǎn)業(yè)智能化升級。

至此,飛槳已經(jīng)可以從架構、硬件、行業(yè)場景、開發(fā)特殊需求等等維度,實現(xiàn)由最深處支撐大模型落地,AI工業(yè)化開發(fā)。截至目前,飛槳平臺已凝聚477萬開發(fā)者,服務18萬家企事業(yè)單位,累計創(chuàng)建了56萬個模型。

飛槳,正在像蒸汽機、電力、燃油一樣,成為可以低門檻、高效率應用的千行百業(yè)生產(chǎn)底座。

百度AI,正在分子化融入中國大地

文心大模型成為首個全面轉向應用的大模型序列;飛槳成為了最了解中國經(jīng)濟需求,最深入中國AI場景的開發(fā)平臺。這不是一場魔法,不是什么突然實現(xiàn)的黑科技,而是一段一脈相承,步步為營的故事。

幾年前,有太多企業(yè)面對著AI許下了宏大的心愿,但今天他們再也不提起AI了。畫幾頁PPT,宣布一個龐大愿景很容易。但在大浪褪去后,堅定實踐每一個諾言卻很難。在WAVE SUMMIT上,我們能看到百度依舊扛著深度學習的旗幟,向技術的無人區(qū),向產(chǎn)業(yè)的戰(zhàn)略高地,向中國大地最深層智能化需求沖過去。

面向讓AI開發(fā)標準化、自動化、模塊化的目標,百度AI將自己一步步解耦,再以最小的分子化形態(tài)融入中國無比廣泛的開發(fā)需求。在遠離喧囂的鄉(xiāng)村角落,在最嚴苛的工業(yè)核心,在最前沿的科學研究,百度的AI技術都能滲透進去。他們把深度學習的鐵杵磨成了針,深入那些真正需要智能的產(chǎn)業(yè)縫隙里。

你可能不會想到,AI能夠在牧區(qū)的農(nóng)貿(mào)市場完成“相?!睅煾档墓ぷ鳎苿有竽翗I(yè)走向市場標準化,現(xiàn)代化。這背后是飛槳的低門檻特性作為支撐。

你可能不會想到,在數(shù)據(jù)不能出車間的工廠里,飛槳可以通過便攜式AI工作站抵達生產(chǎn)核心,帶來工業(yè)智能化的無窮想象。而這只是飛槳產(chǎn)業(yè)級特性的一個縮影。

你可能不會想到,飛槳已經(jīng)在與中國所有主流的超算中心進行適配,為了幫助前沿科學研究項目走向智能化。這只是飛槳在跨領域、跨學科探索的一個側面。

從2019年正式提出工業(yè)化大生產(chǎn)目標,百度AI依托飛槳連綿不絕的升級,開始伴隨各行業(yè)一起步入深度學習賦能產(chǎn)業(yè)的深水區(qū)。2020年,突如其來的疫情帶來了一系列變化,各行業(yè)開始加速擁抱數(shù)字化、智能化,這也讓飛槳更加高效地肩負起支撐產(chǎn)業(yè)的責任。2021年,瞄準AI技術降低門檻,融合創(chuàng)新的新特點,百度持續(xù)打造了低門檻的飛槳使用體驗,推出了知識增強大模型的關鍵創(chuàng)新。

伴隨著百度AI的步步深入,一次次降低門檻,提升技術支撐力,各行業(yè)也開啟了更加積極的AI探索。從少量先行者探索AI,到大量企業(yè)開始“工坊”式嘗試AI,再到企業(yè)開始以大規(guī)模資源協(xié)同的方式,啟動AI工業(yè)化大生產(chǎn)。千行百業(yè)的智能化、數(shù)字化需求逐年深入,隨之而來的智能需求也不斷加強。為此,百度打造了以云計算為基礎,以AI為引擎的賦能形態(tài),支撐企業(yè)數(shù)字化、智能化升級一步到位。

在技術供給與產(chǎn)業(yè)需求同步提升的同時,百度此前提出培養(yǎng)500萬AI人才的目標也在持續(xù)進展。各種各樣的產(chǎn)學研聯(lián)合培養(yǎng)方式與AI技術社區(qū),保障了智能化過程中的人才基礎。

王海峰認為,在深度學習技術及平臺的支撐下,人工智能呈現(xiàn)出融合創(chuàng)新、降低門檻的特點,將繼續(xù)推動科技革命和產(chǎn)業(yè)變革,加快產(chǎn)業(yè)智能化升級。

這些特點并不是憑空浮現(xiàn),而是一步步探索出來,一點點錘煉出來。在技術研發(fā)、平臺打造、生態(tài)培育、應用落地的一重重探索下,真正的普惠AI正在實現(xiàn)。

時間來到2022年,面對大模型走向實用化,各行業(yè)開始以AI重構和升級生產(chǎn)力核心。我們會有點驚奇地發(fā)現(xiàn),那個把AI技術變成21世紀的蒸汽機,讓第四次工業(yè)革命發(fā)生在中國的諾言,似乎開始一步步,一點點地實現(xiàn)了?

那些聽起來稚嫩的希望,

那些看上去荒唐的夢想,

那些遲遲不敢說出口的諾言,

就去試試吧。

就去一次次調(diào)參那些模型,去在深夜里回復每個開發(fā)者的疑問,就去深入車間,深入牧場,深入實驗室。去直面需求,升級技術,錘煉平臺,共創(chuàng)生態(tài),去實現(xiàn)那個關于大模型,關于深度學習技術的,最深的,最大的,也是最美好的夢。

中國AI不是一張空頭支票。而是真的有人在把大模型、把AI技術變成一個機會,一個撬動產(chǎn)業(yè)變革,撬動智能革命的機會。

還記得年少時的夢嗎?

像朵永遠不凋零的花

讓第四次工業(yè)革命發(fā)生在中國,又為什么不能實現(xiàn)呢?