在剛剛過去的春天，我們見證了新世紀以來規(guī)模最大的科技狂歡。用“雨后春筍”來形容這幾個月人工智能（AI）的發(fā)展都會顯得過于保守，“大爆炸”可能是更合適的形容——就連原百度總裁、行業(yè)大牛、公認“最有干勁”的陸奇博士也說自己“（論文和代碼）跟不上了，實在是太多了?！?/p>

回想2022年11月30日，新時代的大門突然打開。OpenAI公司發(fā)布了ChatGPT，人們驚覺AI重現(xiàn)了AlphaGo的輝煌——而且這次更全面。以GPT-3為代表的生成式人工智能似乎擁有了全面的語言處理能力，而 MidJourney、Stable Diffusion則讓繪畫不再是人類獨有的手藝。接下來的幾個月，大語言模型（LLMs，Large Language Models）成了人盡皆知的關(guān)鍵詞，微軟、谷歌、臉書（Meta）這些互聯(lián)網(wǎng)巨頭重新站回風(fēng)口浪尖。

國內(nèi)企業(yè)也紛紛發(fā)力。百度的“文心一言”、商湯的“日日新”、阿里的“通義”、騰訊的“混元”、華為的“盤古”都亮了相。到5月，各種企業(yè)和教學(xué)科研機構(gòu)院校發(fā)布的大模型已經(jīng)超過 30 種，大有“構(gòu)建新時代 IT 底座”的豪情，真可稱得上“日日工業(yè)革命，夜夜文藝復(fù)興”。

當(dāng)然，AI的未來并非沒有隱憂。彭博社在2023年3月初的一篇文章中說，谷歌公司每年的用電總量中，有10%~15%是被AI項目吃掉的。這大約相當(dāng)于亞特蘭大50萬人整整一年的生活用電量。根據(jù)國際數(shù)據(jù)公司（IDC）的預(yù)測，目前AI的能源消耗占全球能源消耗的約3％；2年以后的2025年，這個數(shù)字將猛增到15％，與之伴隨而來的是對環(huán)境的巨大影響。

從這個意義上說，能源是AI的第一個底座。也許AI在造福全人類之前，先會撞上能源之墻。

01 這些能源是怎么被AI吃掉的？

可是，AI為什么會這么耗電？這就牽扯到它的另一個底座：算力。AI是計算密集型技術(shù)，在ChatGPT 這樣的應(yīng)用中更是如此。它需要大量算力，自然也需要大量能源。

掀起最近的AI浪潮的，是深度學(xué)習(xí)（Deep Learning）技術(shù)，它會構(gòu)建分成多層的人工神經(jīng)網(wǎng)絡(luò)（即深度神經(jīng)網(wǎng)絡(luò)），其中每個神經(jīng)元都有自己的可調(diào)節(jié)參數(shù)。大語言模型往往意味著數(shù)十億、上百億甚至更多的參數(shù)，這是獲得良好結(jié)果的保證；而在此基礎(chǔ)上，還需要龐大的數(shù)據(jù)集，來教會模型如何做出正確的反應(yīng)。支撐這兩者的，就是強大的計算能力。

算力、數(shù)據(jù)和算法是AI的三要素，缺一不可。發(fā)布之初，ChatGPT 的背后是GPT-3 模型。這個模型包含了1750億個參數(shù)，使用了45T的數(shù)據(jù)來訓(xùn)練，訓(xùn)練一次的算力需求大約是 3640 PF-day——也就是說，如果使用每秒鐘運算1000萬億次的計算設(shè)備，完成一次訓(xùn)練需要3640天。

這還只是訓(xùn)練而已。把AI模型放在現(xiàn)實環(huán)境中來回答問題或者采取行動——這被稱為“推理”——比訓(xùn)練更耗能。根據(jù)芯片巨頭英偉達的估計，GPT-3這樣的模型，會有80%到90%的成本花在推理而非訓(xùn)練上。

AI的訓(xùn)練和推理之所以需要這么多算力，主要有三方面原因：數(shù)據(jù)集的膨脹、參數(shù)的增長，以及模型的收益遞減規(guī)律。大致上，數(shù)據(jù)越多，模型學(xué)到的就越多，這和人類的學(xué)習(xí)類似；而和人類學(xué)習(xí)不同的是，當(dāng)在更大的數(shù)據(jù)集上多次迭代學(xué)習(xí)時，消耗的能量也會迅速增加。

模型參數(shù)增加時，人工神經(jīng)元之間的連接會呈指數(shù)增加，所需的計算量和能量也會飆升。在先前的一個測試案例里，模型的參數(shù)數(shù)量增加了4倍，而耗能增加了18000倍。

更糟糕的是，模型并不是越大越好，它也同樣存在性價比問題。2019年，美國艾倫人工智能研究所（AI2）的研究人員發(fā)表了一篇論文，證明了大模型的邊際收益遞減現(xiàn)象：2017年發(fā)布的 ResNeXt 模型和它2015年的原版相比，所需算力增加了35%，但準確率只提高了0.5%。

然而，在找到最優(yōu)平衡前，人們還是得努力堆算力。OpenAI 公司發(fā)表的一篇文章說，從2012年到現(xiàn)在，用于人工智能的計算量增加了30萬倍，即大概每過100天，AI的計算量就翻一番。

這大概是AI時代的新摩爾定律。

02 算力：AI時代的摩爾定律

1965年，英特爾公司的聯(lián)合創(chuàng)始人戈登·摩爾（Gordon Moore）提出了一條經(jīng)驗規(guī)律，認為集成電路上可容納的晶體管數(shù)量將會以每兩年翻倍的速度增長。這意味著，每過20年，同樣大小的集成電路上，晶體管的數(shù)量將增加1000倍；每過40年，則是 100萬倍。

今天我們所在的信息時代，就建立在摩爾定律的基礎(chǔ)上。它一直是計算機技術(shù)發(fā)展的重要推動力。

從某種意義上說，摩爾定義帶來的推動力只是“外因”。計算機技術(shù)的發(fā)展還需要一點“內(nèi)因”的影響——它來自人類的天性：玩。

“游戲”和“擁有”的渴望一直刻在我們的基因里，早在“人”這個物種還沒有誕生時便是如此。計算機剛被發(fā)明出來沒有多久，游戲就成了它的重要用途。早在1952 年，美國計算機科學(xué)家阿瑟·塞繆爾（Arthur Samuel）就在一臺IBM計算機上寫出了第一個跳棋程序。后來，他還創(chuàng)造了“機器學(xué)習(xí)”一詞。今天，這個詞和“人工智能”經(jīng)常一起出現(xiàn)。1966年，美國計算機科學(xué)家、圖靈獎得主肯·湯普森（Kenneth Thompson）為了能繼續(xù)玩自己開發(fā)的“星際旅行”游戲，干脆寫了一個操作系統(tǒng)，還順手設(shè)計了一門編程語言。那個操作系統(tǒng)就是后來的Unix。今天計算機上的Linux 和macOS操作系統(tǒng)、手機上的Android和iOS操作系統(tǒng)都可以算成它的近親。而那門編程語言，就是大名鼎鼎的C語言。

1982年，IBM 推出了個人計算機（PC）。PC游戲的出現(xiàn)順理成章。更快的硬件會催生更強大的軟件，更強的軟件會逼迫硬件升級，兩者像藤蔓般糾纏在一起。1992年，大受歡迎的3D游戲《德軍總部3D》誕生。在3D游戲中，畫面渲染計算的難度并不大，但是對計算速度的要求很高。在這類游戲中，環(huán)境和角色都是用許多多邊形構(gòu)建起來的。它們的形狀和位置取決于頂點的3D坐標。顯卡需要對許多頂點執(zhí)行矩陣乘法與除法運算，才能確定這些模型該如何在平面的屏幕上準確呈現(xiàn)；然后，還需要對每個像素做一番計算，才能確定每個像素的顏色。這些計算需要很快的速度，因為3D游戲往往是移步換景的。

幸好，這些計算難度不高，而且彼此大都是獨立的。所以，專門用于顯示的顯卡應(yīng)該擅長完成這些并行計算，并能快速傳輸數(shù)據(jù)。這樣的需求，讓計算機顯卡的核心圖形處理器（GPU）走上了和計算機CPU不同的道路。GPU可以專為圖像處理優(yōu)化。

在進入新世紀后，摩爾定律失效的苗頭越來越明顯。加工工藝逐漸接近物理極限，晶體管越來越小，越來越難以制造和集成，散熱和電力供應(yīng)也越來越成問題。于是，多核心逐漸成為主流的解決方案；無論是CPU還是GPU，都朝著多核心的方向一路狂奔。

緊接著，比特幣就出現(xiàn)了。

以比特幣為代表的加密貨幣是被計算出來的，這個過程叫做“挖礦”。挖礦需要大量的并行計算能力，每秒鐘要執(zhí)行數(shù)百萬次。在加密貨幣價格上漲的日子里，“挖礦”成了利潤豐厚的商業(yè)活動，為了追求更多的財富，狂熱的“礦主”甚至把顯卡買到缺貨——而這樣的需求又進一步刺激了對算力突破的需求。

芯片廠商最初研發(fā)GPU的時候，怎么可能會想到，很多年后，這些“游戲裝備”竟然被拿來“挖礦”了呢？

03 技術(shù)自有安排

沒想到的事情，又何止這么一件？

2010年，美國空軍買了大約2000臺索尼公司生產(chǎn)的PlayStation3游戲主機。這是要讓飛行員們通過玩兒游戲來訓(xùn)練嗎，還是干脆就是軍官們想玩兒游戲了？

都不是。

在物理學(xué)家卡納（Guarav Khanna）的一番操作之后，這些游戲主機被連在一起，成了一臺專門用于處理高分辨率衛(wèi)星圖像的超級計算機。它的浮點運算性能比當(dāng)時市場上的最強顯卡還要強至少30倍。即使是10多年后的現(xiàn)在，最強的消費級顯卡也只能勉強達到它的1/5。

這顯然也是索尼公司和游戲玩家們沒想到的事情。不過，倒也不難理解。游戲主機本來就是為了游戲優(yōu)化的——PlayStation3 使用的芯片，有獨立的CPU和GPU協(xié)同工作，能利用8個核心來完成雙重任務(wù)，還可以在所有核之間共享信息。

如今，AI也需要這些能力。今天AI的主要技術(shù)是深度學(xué)習(xí)，而深度學(xué)習(xí)的基本思想是“聯(lián)結(jié)主義”：盡管神經(jīng)網(wǎng)絡(luò)中的單個神經(jīng)元不具備智能，但大量神經(jīng)元連接在一起，往往就會“涌現(xiàn)”出智能。關(guān)鍵是神經(jīng)元數(shù)量要多，神經(jīng)網(wǎng)絡(luò)規(guī)模要大——模型能力的提升關(guān)鍵之一，就是網(wǎng)絡(luò)規(guī)模的變化。

顯然，網(wǎng)絡(luò)規(guī)模越大，對計算能力的需求就越高。今天的大型神經(jīng)網(wǎng)絡(luò)通常使用 GPU 來計算。因為神經(jīng)網(wǎng)絡(luò)所使用的算法，往往會涉及到大量的參數(shù)，它們會在每一次訓(xùn)練迭代時更新。要更新的內(nèi)容越多，對內(nèi)存帶寬的要求就越高，而 GPU 的優(yōu)勢之一就是內(nèi)存帶寬。而且，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法往往在神經(jīng)元級別上相對獨立且簡單，所以還可以利用GPU的并行計算能力來加速處理。

這當(dāng)然不是顯卡的設(shè)計用途。但是誤打誤撞地，顯卡成了 AI 時代的基礎(chǔ)設(shè)施。正是游戲和加密貨幣，在一定程度上幫助后來的AI打下了這樣的“算力底座”。從某種意義上說，這是技術(shù)自己的安排。

04 技術(shù)總是出人意料

今天，AI已經(jīng)開始推動社會和工業(yè)變革。若是沒有顯卡，也許我們不會這么快看到AI走進生活。而顯卡，源自人們的熱情和創(chuàng)新精神，特別是對游戲和加密貨幣的追逐。這大概算是個有點意外的開端。

著名科學(xué)作家里德利（Matt Ridley）在其名作《自下而上》里說，技術(shù)創(chuàng)新和生物的演化一樣，沒有特定的方向，只有在經(jīng)過一番優(yōu)勝劣汰之后，最合適的技術(shù)才會發(fā)展壯大。而某種技術(shù)一旦成為主流，又會不斷地自我改進。技術(shù)像是變成了一種獨特的生物，有了自己的發(fā)展方向。隨著技術(shù)進步，那些受到歡迎的技術(shù)會繼續(xù)累積，發(fā)展速度會變得越來越快。

凱文·凱利（Kevin Kelly）也有些相似的觀點。他在《科技想要什么》中談到，科技的發(fā)展不是線性的，而是充滿了曲折和反復(fù)；科技的演進往往復(fù)雜而不確定，未來的發(fā)展往往出乎人們的意料。

所以，AI的耗能問題，也許會有出乎意料的解法?，F(xiàn)在人們已經(jīng)開始嘗試讓AI不那么耗電，如降低精度、模型壓縮、模型裁剪等技術(shù)；也在積極探索可再生能源技術(shù)的應(yīng)用，來提供更環(huán)保的能源。這當(dāng)然是個好的開始。

把這個問題留給 AI 來探索，也許會有令人驚喜的答案吧！

作者｜猛犸哈爾濱理工大學(xué)

審核｜于旸騰訊安全玄武實驗室負責(zé)人

技術(shù)演進的意外結(jié)果：游戲與加密貨幣怎么就成了AI的“算力底座”？

01

這些能源是怎么被AI吃掉的？

02

算力：AI時代的摩爾定律

03

技術(shù)自有安排

04

技術(shù)總是出人意料

技術(shù)演進的意外結(jié)果：游戲與加密貨幣怎么就成了AI的“算力底座”？

這些能源是怎么被AI吃掉的？