版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

AI模型訓(xùn)練“新方案”:讓AI像人腦一樣“小而強(qiáng)”

學(xué)術(shù)頭條
一起見(jiàn)證人類探索征途上的每一個(gè)重大突破。
收藏

想象一下,如果人工智能(AI)模型能像人腦一樣,規(guī)模小,耗能少,但具備同樣復(fù)雜功能,那現(xiàn)階段 AI 模型訓(xùn)練的耗能大、難理解的瓶頸是不是就能解決了?

中國(guó)科學(xué)院自動(dòng)化研究所李國(guó)齊、徐波研究員團(tuán)隊(duì)聯(lián)合清華大學(xué)、北京大學(xué)等團(tuán)隊(duì)便在這一方面取得了突破——

他們借鑒大腦神經(jīng)元復(fù)雜動(dòng)力學(xué)特性,提出了“基于內(nèi)生復(fù)雜性”的類腦神經(jīng)元模型構(gòu)建方法,而非基于 Scaling Law 去構(gòu)建更大、更深和更寬的神經(jīng)網(wǎng)絡(luò)。這種方法不僅改善了傳統(tǒng)模型通過(guò)向外拓展規(guī)模帶來(lái)的計(jì)算資源消耗問(wèn)題,還保持了性能,內(nèi)存使用量減少了 4 倍,處理速度提高了 1 倍

研究論文以“Network model with internal complexity bridges artificial intelligence and neuroscience”為題,發(fā)表在權(quán)威期刊 Nature Computational Science 上。共同通訊作者為中國(guó)科學(xué)院自動(dòng)化所李國(guó)齊研究員、徐波研究員,北京大學(xué)田永鴻教授。共同一作是清華大學(xué)錢學(xué)森班的本科生何林軒(自動(dòng)化所實(shí)習(xí)生),數(shù)理基科班本科生徐蘊(yùn)輝(自動(dòng)化所實(shí)習(xí)生),清華大學(xué)精儀系博士生何煒華和林逸晗。

李國(guó)齊解釋說(shuō),構(gòu)建更大、更復(fù)雜的神經(jīng)網(wǎng)絡(luò)的流行方法,稱為“基于外生復(fù)雜性”,消耗了大量的能源和計(jì)算能力,同時(shí)缺乏可解釋性。相比之下,擁有 1000 億個(gè)神經(jīng)元和 1000 萬(wàn)億個(gè)突觸連接的人腦僅需 20 瓦的功率即可高效運(yùn)行。

加州大學(xué)圣克魯斯分校 Jason Eshraghian 團(tuán)隊(duì)在評(píng)論文章中表示,這一發(fā)現(xiàn)暗示了 AI 發(fā)展的潛在轉(zhuǎn)變。盡管大語(yǔ)言模型(LLM)的成功展示了通過(guò)大量參數(shù)計(jì)數(shù)和復(fù)雜架構(gòu)的外部復(fù)雜性的力量,但這項(xiàng)新的研究表明,增強(qiáng)內(nèi)部復(fù)雜性可能提供了改善 AI 性能和效率的替代路徑。

他們還表示,AI中的內(nèi)部與外部復(fù)雜性之爭(zhēng)仍然開(kāi)放,兩種方法在未來(lái)發(fā)展中都可能發(fā)揮作用。通過(guò)重新審視和深化神經(jīng)科學(xué)與 AI 之間的聯(lián)系,我們可能會(huì)發(fā)現(xiàn)構(gòu)建更高效、更強(qiáng)大,甚至更“類腦”的 AI 系統(tǒng)的新方法。

效果怎么樣?

本研究首先展示了脈沖神經(jīng)網(wǎng)絡(luò)神經(jīng)元 LIF(Leaky Integrate and Fire)模型和 HH(Hodgkin-Huxley)模型在動(dòng)力學(xué)特性上存在等效性,進(jìn)一步從理論上證明了 HH 神經(jīng)元可以和四個(gè)具有特定連接結(jié)構(gòu)的時(shí)變參數(shù) LIF 神經(jīng)元(tv-LIF)動(dòng)力學(xué)特性等效。

基于這種等效性,團(tuán)隊(duì)通過(guò)設(shè)計(jì)微架構(gòu)提升計(jì)算單元的內(nèi)生復(fù)雜性,使 HH 網(wǎng)絡(luò)模型能夠模擬更大規(guī)模 LIF 網(wǎng)絡(luò)模型的動(dòng)力學(xué)特性,在更小的網(wǎng)絡(luò)架構(gòu)上實(shí)現(xiàn)與之相似的計(jì)算功能。進(jìn)一步,團(tuán)隊(duì)將由四個(gè) tv-LIF 神經(jīng)元構(gòu)建的“HH 模型”(tv-LIF2HH)簡(jiǎn)化為 s-LIF2HH 模型,通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了這種簡(jiǎn)化模型在捕捉復(fù)雜動(dòng)力學(xué)行為方面的有效性。

圖片

圖|一種從 tv-LIF 過(guò)渡到 HH 的方法,它將外部連接的復(fù)雜性收斂到單個(gè)神經(jīng)元的內(nèi)部。

在多樣化的輸入下,s-LIF2HH 和 HH 網(wǎng)絡(luò)的尖峰率和時(shí)間相似,尖峰活動(dòng)的近似仍然存在,減少了計(jì)算成本并增強(qiáng)了生物可塑性,使得模型更適用于基于反向傳播的訓(xùn)練。

對(duì)于方波、正弦波、三角波和鋸齒波輸入的平均相對(duì)誤差分別為 3.3%,7.3%,5.8% 和 8.7%,均低于10%。這些不同輸入下的結(jié)果確認(rèn)了 s-LIF2HH 和 HH 模型產(chǎn)生了相似的尖峰計(jì)數(shù),并且在發(fā)放時(shí)間上緊密對(duì)齊,展示了整體發(fā)放模式的相似性。這種普遍性意味著 HH 和 s-LIF2HH 模型之間的近似動(dòng)力學(xué)在不同任務(wù)中持續(xù)存在。

圖片

圖|高精度仿真案例的等效圖。

單個(gè) HH 神經(jīng)元的增強(qiáng)信息處理能力補(bǔ)償了更簡(jiǎn)單的拓?fù)浣Y(jié)構(gòu);因此,HH 神經(jīng)元的內(nèi)部復(fù)雜性與 s-LIF2HH 子網(wǎng)絡(luò)的外部復(fù)雜性相當(dāng)。具有更大內(nèi)部復(fù)雜性的模型可以與具有更大外部復(fù)雜性的模型相匹配,而僅僅增加網(wǎng)絡(luò)規(guī)模無(wú)法彌合這些與更簡(jiǎn)單模型之間的差距。

HH 和 s-LIF2HH 模型表現(xiàn)相似,都明顯優(yōu)于 LIF;4×LIF 略優(yōu)于 LIF,而 b-ANN 略遜色但仍可比較。HH 和 s-LIF2HH 網(wǎng)絡(luò)由于其復(fù)雜的結(jié)構(gòu),在時(shí)序信息提取方面具有強(qiáng)大的能力,這優(yōu)于僅僅增加網(wǎng)絡(luò)規(guī)模。

研究團(tuán)隊(duì)還進(jìn)行了魯棒性測(cè)試,以補(bǔ)充驗(yàn)證 HH 和 s-LIF2HH 網(wǎng)絡(luò)的可比性。結(jié)果表明,HH 和 s-LIF2HH 網(wǎng)絡(luò)具有相似的噪聲魯棒性,而魯棒性源自 HH 神經(jīng)元的動(dòng)態(tài)復(fù)雜性和 s-LIF2HH 的復(fù)雜拓?fù)洌粌H僅是神經(jīng)元數(shù)量。這表明,模型內(nèi)部復(fù)雜性與外部復(fù)雜性之間具有等效性,并且它們?cè)谏疃葘W(xué)習(xí)任務(wù)中比具有簡(jiǎn)單動(dòng)力學(xué)增加規(guī)模的模型有更加明顯的優(yōu)勢(shì)。

圖片

圖|深度學(xué)習(xí)任務(wù)中的表征能力和魯棒性。

HH 網(wǎng)絡(luò)的 FLOPs 高于 LIF 網(wǎng)絡(luò),但與相同結(jié)構(gòu)的 s-LIF2HH 網(wǎng)絡(luò)相比大約低 50%,這表明層間連接對(duì)總 FLOPs 的貢獻(xiàn)大于神經(jīng)元操作。HH 和 LIF 網(wǎng)絡(luò)的可訓(xùn)練參數(shù)數(shù)量相同,而與 s-LIF2HH 網(wǎng)絡(luò)相比,可訓(xùn)練參數(shù)數(shù)量大約減少 25%。

由于 HH 網(wǎng)絡(luò)需要較少的計(jì)算,因此其時(shí)間消耗也相應(yīng)較低。HH-fc 和 HH-conv 網(wǎng)絡(luò)在推理過(guò)程中分別比 s-LIF2HH-fc 和 s-LIF2HH-conv 網(wǎng)絡(luò)大約快 30% 和 45%,在訓(xùn)練過(guò)程中分別大約快 36% 和 52%。盡管 HH 和 s-LIF2HH 網(wǎng)絡(luò)比 LIF 網(wǎng)絡(luò)慢,但 HH 網(wǎng)絡(luò)使用較少的計(jì)算資源,且比 s-LIF2HH 網(wǎng)絡(luò)快。這些結(jié)果表明,與 s-LIF2HH 網(wǎng)絡(luò)相比,HH 網(wǎng)絡(luò)提供了顯著的計(jì)算效率,證明了將外部復(fù)雜性轉(zhuǎn)化為內(nèi)部復(fù)雜性可以提高深度學(xué)習(xí)模型的效率。

圖片

圖|計(jì)算資源和統(tǒng)計(jì)指標(biāo)分析。

HH 網(wǎng)絡(luò)的 I (X, Z) 與 LIF 網(wǎng)絡(luò)相當(dāng),但遠(yuǎn)低于 s-LIF2HH 網(wǎng)絡(luò)。相反,HH 網(wǎng)絡(luò)的 I (Z, Y) 與 s-LIF2HH 網(wǎng)絡(luò)相似,但優(yōu)于 LIF 網(wǎng)絡(luò)。這表明 HH 模型與 s-LIF2HH 模型相比具有較低的復(fù)雜性但相似的表示能力,與 LIF 模型相比具有類似的復(fù)雜性但更好的表示能力。

不足與展望

這項(xiàng)研究為構(gòu)建更高效、更強(qiáng)大的 AI 系統(tǒng)提供了新的思路,并為將神經(jīng)科學(xué)成果應(yīng)用于 AI 研究提供了理論支持。

但是,研究也存在一定的局限性。例如,HH 和 s-LIF2HH 模型在深度學(xué)習(xí)實(shí)驗(yàn)中具有不同的脈沖模式,這表明模擬中近似的動(dòng)態(tài)特性可能不是它們可比性的良好解釋。這種現(xiàn)象可能源于它們基本單元(HH 神經(jīng)元和 s-LIF2HH 子網(wǎng)絡(luò))固有的相似復(fù)雜性。

此外,由于神經(jīng)元非線性和脈沖機(jī)制的局限性,本研究?jī)H在小型網(wǎng)絡(luò)中進(jìn)行了,未來(lái)將研究更大規(guī)模的網(wǎng)絡(luò)和單個(gè)網(wǎng)絡(luò)中多種神經(jīng)元模型的影響。

目前,研究團(tuán)隊(duì)已開(kāi)展對(duì)更大規(guī)模 HH 網(wǎng)絡(luò),以及具備更大內(nèi)生復(fù)雜性的多分支多房室神經(jīng)元的研究,有望進(jìn)一步提升大模型計(jì)算效率與任務(wù)處理能力,實(shí)現(xiàn)在實(shí)際應(yīng)用場(chǎng)景中的快速落地。

內(nèi)部復(fù)雜性小的模型方法可能為開(kāi)發(fā)更高級(jí)和混合的 AI 提供了一條有希望的途徑。未來(lái),研究團(tuán)隊(duì)表示,他們希望更多研究人員關(guān)注復(fù)雜性這一主題,并利用神經(jīng)科學(xué)的發(fā)現(xiàn)進(jìn)行 AI 研究。

評(píng)論
新風(fēng)科普????
學(xué)士級(jí)
AI訓(xùn)練的新招,就是讓它從“大而全”變身“小而精”,像人腦一樣高效節(jié)能。這樣的AI,不僅更聰明,還更接地氣,就像是隨身攜帶的智能小助手,隨時(shí)準(zhǔn)備幫你解決大問(wèn)題。
2024-09-09
東明縣陸圈鎮(zhèn) 油梅霞
學(xué)士級(jí)
在AI模型訓(xùn)練中,"小而強(qiáng)"的新方案是指通過(guò)改進(jìn)算法和優(yōu)化模型結(jié)構(gòu),使AI模型在保持較高性能的同時(shí),降低對(duì)計(jì)算資源的需求。這種方案的目標(biāo)是讓AI模型更像人腦一樣高效、節(jié)能。我們可以實(shí)現(xiàn)"小而強(qiáng)"的AI模型,使其在有限的計(jì)算資源下實(shí)現(xiàn)較高的性能,更接近人腦的工作原理。
2024-09-09
新風(fēng)科普????
學(xué)士級(jí)
AI的新訓(xùn)練方案,就像是在培養(yǎng)一個(gè)“小而美”的大腦,不僅追求的是體積小巧,更注重的是效率和智能。這樣的AI,就像生活中的瑞士軍刀,雖小卻強(qiáng)大,能在各種場(chǎng)景下靈活應(yīng)變,展現(xiàn)出類拔萃的能力。
2024-09-09