技術(shù)演進(jìn)的意外結(jié)果:游戲與加密貨幣怎么就成了AI的“算力底座”?

科普中國
公眾科普,科學(xué)傳播。
收藏

在剛剛過去的春天,我們見證了新世紀(jì)以來規(guī)模最大的科技狂歡。用“雨后春筍”來形容這幾個(gè)月人工智能(AI)的發(fā)展都會顯得過于保守,“大爆炸”可能是更合適的形容——就連原百度總裁、行業(yè)大牛、公認(rèn)“最有干勁”的陸奇博士也說自己“(論文和代碼)跟不上了,實(shí)在是太多了。”

回想 2022 年 11 月 30 日,新時(shí)代的大門突然打開。OpenAI 公司發(fā)布了 ChatGPT,人們驚覺 AI 重現(xiàn)了 AlphaGo 的輝煌——而且這次更全面。以 GPT-3 為代表的生成式人工智能似乎擁有了全面的語言處理能力,而 MidJourney、Stable Diffusion 則讓繪畫不再是人類獨(dú)有的手藝。接下來的幾個(gè)月,大語言模型(LLMs,Large Language Models)成了人盡皆知的關(guān)鍵詞,微軟、谷歌、臉書(Meta)這些互聯(lián)網(wǎng)巨頭重新站回風(fēng)口浪尖。

國內(nèi)企業(yè)也紛紛發(fā)力。百度的“文心一言”、商湯的“日日新”、阿里的“通義”、騰訊的“混元”、華為的“盤古”都亮了相。到 5 月,各種企業(yè)和教學(xué)科研機(jī)構(gòu)院校發(fā)布的大模型已經(jīng)超過 30 種,大有“構(gòu)建新時(shí)代 IT 底座”的豪情,真可稱得上“日日工業(yè)革命,夜夜文藝復(fù)興”。

圖片

圖庫版權(quán)圖片,不授權(quán)轉(zhuǎn)載

當(dāng)然,AI 的未來并非沒有隱憂。彭博社在 2023 年 3 月初的一篇文章中說,谷歌公司每年的用電總量中,有 10%~15%是被AI項(xiàng)目吃掉的。這大約相當(dāng)于亞特蘭大50萬人整整一年的生活用電量。根據(jù)國際數(shù)據(jù)公司( IDC) 的預(yù)測,目前 AI 的 能源消耗占全球能源消耗的約 3%;2年以后的2025 年,這個(gè)數(shù)字將猛增到 15%,與之伴隨而來的是對環(huán)境的巨大影響。

從這個(gè)意義上說,能源是AI的第一個(gè)底座。也許 AI 在造福全人類之前,先會撞上能源之墻。

01

這些能源是怎么被AI吃掉的?

可是,AI為什么會這么耗電?這就牽扯到它的**另一個(gè)底座:**算力。AI 是計(jì)算密集型技術(shù),在 ChatGPT 這樣的應(yīng)用中更是如此。它需要大量算力,自然也需要大量能源。

掀起最近的 AI 浪潮的,是深度學(xué)習(xí)(Deep Learning)技術(shù),它會構(gòu)建分成多層的人工神經(jīng)網(wǎng)絡(luò)(即深度神經(jīng)網(wǎng)絡(luò)),其中每個(gè)神經(jīng)元都有自己的可調(diào)節(jié)參數(shù)。大語言模型往往意味著數(shù)十億、上百億甚至更多的參數(shù),這是獲得良好結(jié)果的保證;而在此基礎(chǔ)上,還需要龐大的數(shù)據(jù)集,來教會模型如何做出正確的反應(yīng)。支撐這兩者的,就是強(qiáng)大的計(jì)算能力。

**算力、數(shù)據(jù)和算法是 AI 的三要素,缺一不可。**發(fā)布之初,ChatGPT 的背后是 GPT-3 模型。這個(gè)模型包含了 1750 億個(gè)參數(shù),使用了 45T 的數(shù)據(jù)來訓(xùn)練,訓(xùn)練一次的算力需求大約是 3640 PF-day——也就是說,如果使用每秒鐘運(yùn)算 1000 萬億次的計(jì)算設(shè)備,完成一次訓(xùn)練需要 3640 天。

圖片

圖庫版權(quán)圖片,不授權(quán)轉(zhuǎn)載

這還只是訓(xùn)練而已。把 AI 模型放在現(xiàn)實(shí)環(huán)境中來回答問題或者采取行動——這被稱為“推理”——比訓(xùn)練更耗能。根據(jù)芯片巨頭英偉達(dá)的估計(jì),GPT-3 這樣的模型,會有 80% 到 90% 的成本花在推理而非訓(xùn)練上。

AI 的訓(xùn)練和推理之所以需要這么多算力,主要有三方面原因:數(shù)據(jù)集的膨脹、參數(shù)的增長,以及模型的收益遞減規(guī)律。大致上,數(shù)據(jù)越多,模型學(xué)到的就越多,這和人類的學(xué)習(xí)類似;而和人類學(xué)習(xí)不同的是,當(dāng)在更大的數(shù)據(jù)集上多次迭代學(xué)習(xí)時(shí),消耗的能量也會迅速增加。

模型參數(shù)增加時(shí),人工神經(jīng)元之間的連接會呈指數(shù)增加,所需的計(jì)算量和能量也會飆升。在先前的一個(gè)測試案例里,模型的參數(shù)數(shù)量增加了 4 倍,而耗能增加了 18000 倍。

更糟糕的是,**模型并不是越大越好,它也同樣存在性價(jià)比問題。**2019 年,美國艾倫人工智能研究所(AI2)的研究人員發(fā)表了一篇論文,證明了大模型的邊際收益遞減現(xiàn)象:2017 年發(fā)布的 ResNeXt 模型和它2015年的原版相比,所需算力增加了 35%,但準(zhǔn)確率只提高了 0.5% 。

然而,在找到最優(yōu)平衡前,人們還是得努力堆算力。OpenAI 公司發(fā)表的一篇文章說,從 2012 年到現(xiàn)在,用于人工智能的計(jì)算量增加了 30 萬倍,即大概每過 100 天,AI 的計(jì)算量就翻一番。

這大概是 AI 時(shí)代的新摩爾定律。

02

算力:AI時(shí)代的摩爾定律

1965 年,英特爾公司的聯(lián)合創(chuàng)始人戈登·摩爾(Gordon Moore)提出了一條經(jīng)驗(yàn)規(guī)律,認(rèn)為集成電路上可容納的晶體管數(shù)量將會以每兩年翻倍的速度增長。這意味著,每過 20 年,同樣大小的集成電路上,晶體管的數(shù)量將增加 1000 倍;每過 40 年,則是 100 萬倍。

今天我們所在的信息時(shí)代,就建立在摩爾定律的基礎(chǔ)上。它一直是計(jì)算機(jī)技術(shù)發(fā)展的重要推動力。

從某種意義上說,摩爾定義帶來的推動力只是“外因”。計(jì)算機(jī)技術(shù)的發(fā)展還需要一點(diǎn)“內(nèi)因”的影響——它來自人類的天性:玩。

“游戲”和“擁有”的渴望一直刻在我們的基因里,早在“人”這個(gè)物種還沒有誕生時(shí)便是如此。計(jì)算機(jī)剛被發(fā)明出來沒有多久,游戲就成了它的重要用途。早在1952 年,美國計(jì)算機(jī)科學(xué)家阿瑟·塞繆爾(Arthur Samuel)就在一臺 IBM 計(jì)算機(jī)上寫出了第一個(gè)跳棋程序。后來,他還創(chuàng)造了“機(jī)器學(xué)習(xí)”一詞。今天,這個(gè)詞和“人工智能”經(jīng)常一起出現(xiàn)。1966年,美國計(jì)算機(jī)科學(xué)家、圖靈獎得主肯·湯普森(Kenneth Thompson)為了能繼續(xù)玩自己開發(fā)的“星際旅行”游戲,干脆寫了一個(gè)操作系統(tǒng),還順手設(shè)計(jì)了一門編程語言。那個(gè)操作系統(tǒng)就是后來的 Unix。今天計(jì)算機(jī)上的 Linux 和 macOS 操作系統(tǒng)、手機(jī)上的 Android 和 iOS 操作系統(tǒng)都可以算成它的近親。而那門編程語言,就是大名鼎鼎的 C 語言。

圖片

圖庫版權(quán)圖片,不授權(quán)轉(zhuǎn)載

1982 年,IBM 推出了個(gè)人計(jì)算機(jī)(PC)。PC 游戲的出現(xiàn)順理成章。更快的硬件會催生更強(qiáng)大的軟件,更強(qiáng)的軟件會逼迫硬件升級,兩者像藤蔓般糾纏在一起。1992 年,大受歡迎的 3D 游戲《德軍總部 3D》誕生。在 3D 游戲中,畫面渲染計(jì)算的難度并不大,但是對計(jì)算速度的要求很高。在這類游戲中,環(huán)境和角色都是用許多多邊形構(gòu)建起來的。它們的形狀和位置取決于頂點(diǎn)的3D坐標(biāo)。顯卡需要對許多頂點(diǎn)執(zhí)行矩陣乘法與除法運(yùn)算,才能確定這些模型該如何在平面的屏幕上準(zhǔn)確呈現(xiàn);然后,還需要對每個(gè)像素做一番計(jì)算,才能確定每個(gè)像素的顏色。這些計(jì)算需要很快的速度,因?yàn)?3D 游戲往往是移步換景的。

幸好,這些計(jì)算難度不高,而且彼此大都是獨(dú)立的。所以,專門用于顯示的顯卡應(yīng)該擅長完成這些并行計(jì)算,并能快速傳輸數(shù)據(jù)。這樣的需求,讓計(jì)算機(jī)顯卡的核心圖形處理器( GPU) 走上了和計(jì)算機(jī) CPU 不同的道路。GPU 可以專為圖像處理優(yōu)化。

在進(jìn)入新世紀(jì)后,摩爾定律失效的苗頭越來越明顯。加工工藝逐漸接近物理極限,晶體管越來越小,越來越難以制造和集成,散熱和電力供應(yīng)也越來越成問題。于是,多核心逐漸成為主流的解決方案;無論是 CPU 還是 GPU,都朝著多核心的方向一路狂奔。

緊接著,比特幣就出現(xiàn)了。

以比特幣為代表的加密貨幣是被計(jì)算出來的,這個(gè)過程叫做“挖礦”。挖礦需要大量的并行計(jì)算能力,每秒鐘要執(zhí)行數(shù)百萬次。在加密貨幣價(jià)格上漲的日子里,“挖礦”成了利潤豐厚的商業(yè)活動,為了追求更多的財(cái)富,狂熱的“礦主”甚至把顯卡買到缺貨——而這樣的需求又進(jìn)一步刺激了對算力突破的需求。

芯片廠商最初研發(fā)GPU的時(shí)候,怎么可能會想到,很多年后,這些“游戲裝備”竟然被拿來“挖礦”了呢?

03

技術(shù)自有安排

沒想到的事情,又何止這么一件?

2010 年,美國空軍買了大約 2000 臺索尼公司生產(chǎn)的 PlayStation 3 游戲主機(jī)。這是要讓飛行員們通過玩兒游戲來訓(xùn)練嗎,還是干脆就是軍官們想玩兒游戲了?

都不是。

在物理學(xué)家卡納(Guarav Khanna)的一番操作之后,這些游戲主機(jī)被連在一起,成了一臺專門用于處理高分辨率衛(wèi)星圖像的超級計(jì)算機(jī)。它的浮點(diǎn)運(yùn)算性能比當(dāng)時(shí)市場上的最強(qiáng)顯卡還要強(qiáng)至少30倍。即使是10多年后的現(xiàn)在,最強(qiáng)的消費(fèi)級顯卡也只能勉強(qiáng)達(dá)到它的1/5。

這顯然也是索尼公司和游戲玩家們沒想到的事情。不過,倒也不難理解。游戲主機(jī)本來就是為了游戲優(yōu)化的——PlayStation 3 使用的芯片,有獨(dú)立的 CPU 和 GPU 協(xié)同工作,能利用 8 個(gè)核心來完成雙重任務(wù),還可以在所有核之間共享信息。

如今,AI 也需要這些能力。今天 AI 的主要技術(shù)是深度學(xué)習(xí),而深度學(xué)習(xí)的基本思想是“聯(lián)結(jié)主義”:盡管神經(jīng)網(wǎng)絡(luò)中的單個(gè)神經(jīng)元不具備智能,但大量神經(jīng)元連接在一起,往往就會“涌現(xiàn)”出智能。關(guān)鍵是神經(jīng)元數(shù)量要多,神經(jīng)網(wǎng)絡(luò)規(guī)模要大——模型能力的提升關(guān)鍵之一,就是網(wǎng)絡(luò)規(guī)模的變化。

**顯然,網(wǎng)絡(luò)規(guī)模越大,對計(jì)算能力的需求就越高。**今天的大型神經(jīng)網(wǎng)絡(luò)通常使用 GPU 來計(jì)算。因?yàn)樯窠?jīng)網(wǎng)絡(luò)所使用的算法,往往會涉及到大量的參數(shù),它們會在每一次訓(xùn)練迭代時(shí)更新。要更新的內(nèi)容越多,對內(nèi)存帶寬的要求就越高,而 GPU 的優(yōu)勢之一就是內(nèi)存帶寬。而且,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法往往在神經(jīng)元級別上相對獨(dú)立且簡單,所以還可以利用 GPU 的并行計(jì)算能力來加速處理。

圖片

圖庫版權(quán)圖片,不授權(quán)轉(zhuǎn)載

這當(dāng)然不是顯卡的設(shè)計(jì)用途。但是誤打誤撞地,顯卡成了 AI 時(shí)代的基礎(chǔ)設(shè)施。正是游戲和加密貨幣,在一定程度上幫助后來的AI打下了這樣的“算力底座”。從某種意義上說,這是技術(shù)自己的安排。

04

技術(shù)總是出人意料

今天,AI 已經(jīng)開始推動社會和工業(yè)變革。若是沒有顯卡,也許我們不會這么快看到 AI 走進(jìn)生活。而顯卡,源自人們的熱情和創(chuàng)新精神,特別是對游戲和加密貨幣的追逐。這大概算是個(gè)有點(diǎn)意外的開端。

著名科學(xué)作家里德利(Matt Ridley)在其名作《自下而上》里說,**技術(shù)創(chuàng)新和生物的演化一樣,沒有特定的方向,只有在經(jīng)過一番優(yōu)勝劣汰之后,最合適的技術(shù)才會發(fā)展壯大。**而某種技術(shù)一旦成為主流,又會不斷地自我改進(jìn)。技術(shù)像是變成了一種獨(dú)特的生物,有了自己的發(fā)展方向。隨著技術(shù)進(jìn)步,那些受到歡迎的技術(shù)會繼續(xù)累積,發(fā)展速度會變得越來越快。

凱文·凱利(Kevin Kelly)也有些相似的觀點(diǎn)。他在《科技想要什么》中談到,科技的發(fā)展不是線性的,而是充滿了曲折和反復(fù);科技的演進(jìn)往往復(fù)雜而不確定,未來的發(fā)展往往出乎人們的意料。

所以,AI 的耗能問題,也許會有出乎意料的解法?,F(xiàn)在人們已經(jīng)開始嘗試讓 AI 不那么耗電,如降低精度、模型壓縮、模型裁剪等技術(shù);也在積極探索可再生能源技術(shù)的應(yīng)用,來提供更環(huán)保的能源。這當(dāng)然是個(gè)好的開始。

把這個(gè)問題留給 AI 來探索,也許會有令人驚喜的答案吧!

作者|猛犸 哈爾濱理工大學(xué)

審核|于旸 騰訊安全玄武實(shí)驗(yàn)室負(fù)責(zé)人

本文封面圖片及文內(nèi)圖片來自版權(quán)圖庫

圖片內(nèi)容不授權(quán)轉(zhuǎn)載

評論
傳承解惑
大學(xué)士級
技術(shù)像是變成了一種獨(dú)特的生物,隨著技術(shù)進(jìn)步,那些受到歡迎的技術(shù)會繼續(xù)累積,發(fā)展速度會變得越來越快。
2023-05-11
科普62a1537e
學(xué)士級
科技成果日新月異。
2023-05-11
科普5f0291786352a
少師級
2023-05-11