導(dǎo)語
自由能原理被認(rèn)為是“自達(dá)爾文自然選擇理論后最包羅萬象的思想”,從第一性原理出發(fā)解釋智能體更新認(rèn)知、探索和改變世界的機(jī)制,被認(rèn)為有可能成為智能的第一性原理的重要候選方案,并有望成為新時(shí)代復(fù)雜系統(tǒng)的大統(tǒng)一理論。本文是對(duì)自由能原理的概覽介紹文章,歡迎開啟這趟自由能之旅,探討智能的第一性原理!
關(guān)鍵詞:自由能原理,主動(dòng)推理,貝葉斯定理,生成模型,隨機(jī)動(dòng)力系統(tǒng),馬爾可夫毯
作者|牟牧云
編輯|梁金
目錄
1. 生命、意識(shí)與智能的統(tǒng)一原理
2. 主動(dòng)推理的底層路徑:從貝葉斯定理出發(fā)
3. 主動(dòng)推理的頂層路徑:從隨機(jī)動(dòng)力系統(tǒng)出發(fā)
從微小的細(xì)菌到復(fù)雜的動(dòng)物,包括人類,都可以被看作是具有某種形式智能的存在。例如,培養(yǎng)皿中的細(xì)菌能夠通過細(xì)胞膜上的受體蛋白來檢測(cè)環(huán)境中化學(xué)物質(zhì)的濃度梯度,并通過化學(xué)趨向性這一過程,向有利的化學(xué)物質(zhì)濃度方向移動(dòng),同時(shí)避開有害物質(zhì)。細(xì)菌這種單細(xì)胞生物,盡管結(jié)構(gòu)簡(jiǎn)單,卻具備了感知環(huán)境和做出行動(dòng)的基本能力,這使得它們能夠?qū)ふ沂澄锘蛱颖芪kU(xiǎn)。
當(dāng)許多單細(xì)胞生物通過簡(jiǎn)單行為進(jìn)行交互匯聚成多細(xì)胞生物時(shí),我們便見證了更為豐富和復(fù)雜的智能行為的誕生。以人類大腦為例,它由大約1000億個(gè)神經(jīng)元組成,這些神經(jīng)元通過約100萬億個(gè)連接形成了一個(gè)龐大而復(fù)雜的網(wǎng)絡(luò),共同構(gòu)成了我們對(duì)世界的感知,控制身體運(yùn)動(dòng),還賦予了我們意識(shí)、思考、學(xué)習(xí)和記憶的能力。
從單細(xì)胞生物的適應(yīng)性行為,到多細(xì)胞生物復(fù)雜神經(jīng)元網(wǎng)絡(luò)所孕育的智能行為,我們不禁好奇:這些現(xiàn)象之間是否存在一種普遍適用的原理?自由能原理(Free Energy Principle)及其衍生的主動(dòng)推理(Acitive Inference,也譯作主動(dòng)推斷)框架,嘗試從第一性原理出發(fā),為我們提供一個(gè)可能的答案。
圖1. 自由能原理嘗試從第一性原理出發(fā)為生命和智能提供統(tǒng)一的解釋。
1. 生命、意識(shí)與智能的統(tǒng)一原理
在探討生命起源到意識(shí)奧秘這一宏大話題時(shí),許多科學(xué)家曾做出重要貢獻(xiàn)。例如,達(dá)爾文在《物種起源》中提出了演化論,認(rèn)為生物的多樣性和復(fù)雜性是通過自然選擇和適者生存的過程逐漸形成的。薛定諤在《生命是什么》中探討了生命體如何在物理定律的框架內(nèi)維持其高度有序的狀態(tài),特別是通過引入“負(fù)熵”的概念來解釋生命體如何抵抗熱力學(xué)第二定律所描述的無序趨勢(shì)。他指出,生命系統(tǒng)通過與外界環(huán)境交換物質(zhì)和能量,實(shí)現(xiàn)了內(nèi)部的秩序和復(fù)雜性,這與開放系統(tǒng)通過能量流動(dòng)維持秩序的思想相呼應(yīng)。
普利高津的耗散結(jié)構(gòu)理論進(jìn)一步闡釋了開放系統(tǒng)如何在遠(yuǎn)離平衡態(tài)的條件下,通過能量和物質(zhì)的流動(dòng)生成和維持秩序。這一理論解釋了在非平衡狀態(tài)下,系統(tǒng)如何通過耗散過程形成新的穩(wěn)定結(jié)構(gòu),這些結(jié)構(gòu)表現(xiàn)出高度的組織性和復(fù)雜性,與生命系統(tǒng)的特征相吻合。普利高津的工作擴(kuò)展了我們對(duì)生命系統(tǒng)如何在動(dòng)態(tài)過程中維持其復(fù)雜性的理解,可以視為是對(duì)薛定諤“負(fù)熵”概念的物理和數(shù)學(xué)上的深化與擴(kuò)展。
現(xiàn)在,探索生命及意識(shí)起源奧秘的接力棒交到了自由能原理手中,這可能是我們距離揭示生命和意識(shí)起源以及智能的奧秘最近的一次嘗試。我們發(fā)現(xiàn),這與以預(yù)測(cè)為核心的大語言模型之間存在許多相似之處,對(duì)于下一代人工智能算法的開發(fā),或許能夠帶來新的的洞見和啟示。
自由能原理(Free Energy Principle, FEP),由當(dāng)前全球最具影響力的理論神經(jīng)科學(xué)家 Karl Friston 提出,它揭示了生物系統(tǒng)如何通過最小化內(nèi)部狀態(tài)與外部環(huán)境預(yù)期之間的差異,即最小化自由能,來實(shí)現(xiàn)與環(huán)境的和諧共存和維持內(nèi)部穩(wěn)態(tài)。這一理論在過去二十年間不斷深化,其理論基礎(chǔ)根植于生物物理學(xué)和系統(tǒng)生物學(xué),廣泛應(yīng)用于神經(jīng)科學(xué)、認(rèn)知科學(xué)和心理學(xué)領(lǐng)域,并對(duì)新一代人工智能算法產(chǎn)生了深遠(yuǎn)的影響。
圖2. 達(dá)爾文,薛定諤,普利高津,和Karl Friston 。|來源于網(wǎng)絡(luò)
基于自由能原理的主動(dòng)推理(ActiveInference)提供了一個(gè)統(tǒng)一的框架,用于建模感知、學(xué)習(xí)和決策過程。在這一框架中,感知和行動(dòng)被視為推斷過程的一部分。主動(dòng)推理進(jìn)一步闡釋了這一過程,它不僅包括被動(dòng)適應(yīng)環(huán)境,還涉及主動(dòng)通過行為改變環(huán)境,以實(shí)現(xiàn)預(yù)期狀態(tài)。
主動(dòng)推理理論的核心觀點(diǎn)是,生物體的認(rèn)知和行為都遵循相同的規(guī)則,即最小化感官觀測(cè)的驚奇(surprise)。驚奇是衡量智能體當(dāng)前感官觀測(cè)與偏好觀測(cè)之間的差異的指標(biāo)。
在主動(dòng)推理框架下,感知過程可以看作是調(diào)整智能體腦中的信念,使其與觀測(cè)盡可能一致。例如,當(dāng)我們?cè)诼飞闲凶?,遠(yuǎn)看一個(gè)人影,走近后發(fā)現(xiàn)其實(shí)是一棵樹,我們就更新了之前的錯(cuò)誤信念。另一方面,行動(dòng)過程則是通過改變世界,使感官觀測(cè)與我們的信念(腦中的先驗(yàn)信念、偏好、表現(xiàn)型)盡可能一致。比如,我們?cè)诼飞闲凶邥r(shí)突然遇到大雨,為了避免被雨淋濕(這可以看作是我們腦中的先驗(yàn)信念),我們會(huì)迅速尋找避雨的地方,通過行動(dòng)改變了感官觀測(cè),使世界狀態(tài)與我們的預(yù)期相符。
主動(dòng)推理理論框架可以通過兩條路徑來理解:一條是更貼近日常直覺的貝葉斯路徑(Low road),另一條是更符合底層原理的物理路徑(Highroad)[6]。接下來,我將簡(jiǎn)要介紹這兩條道路的思路和邏輯。關(guān)于這兩條道路的更深入內(nèi)容,將在后續(xù)的文章中進(jìn)行詳細(xì)討論。
圖3. 主動(dòng)推理的兩條路徑:貝葉斯路徑(Low road)和物理路徑(Highroad)
2. 主動(dòng)推理的第一條道路:從貝葉斯定理出發(fā)
在介紹貝葉斯定理的主動(dòng)推理路徑之前,我們首先需要區(qū)分一組關(guān)鍵概念:生成過程(Generative Process)與生成模型(Generative Model)。生成過程指的是現(xiàn)實(shí)世界中實(shí)際發(fā)生的事件過程,反應(yīng)了現(xiàn)實(shí)世界的真實(shí)狀態(tài)以及這些狀態(tài)如何決定我們的觀測(cè)結(jié)果。相對(duì)地,生成模型則是智能體(無論是人類還是人工智能系統(tǒng))對(duì)世界的信念和理解的內(nèi)部表示。
圖4. 生成過程和生成模型
由于我們無法直接知曉真實(shí)世界的生成過程,只能依據(jù)觀測(cè)到的有限信息來構(gòu)建對(duì)真實(shí)世界的認(rèn)知。智能體通過這些觀測(cè)信息在其大腦中構(gòu)建一個(gè)模型,力圖盡可能地復(fù)原外部世界的生成過程。在人工智能領(lǐng)域,這種內(nèi)部構(gòu)建的模型有時(shí)也被稱為“世界模型”。
古希臘哲學(xué)家柏拉圖提出過一個(gè)著名的洞穴思想實(shí)驗(yàn),拋開更深層次的隱喻,這里不太嚴(yán)謹(jǐn)?shù)慕栌眠@個(gè)實(shí)驗(yàn)進(jìn)行舉例:想象一個(gè)深洞穴,里面有一群囚徒自出生以來就被鎖鏈?zhǔn)`,面朝墻壁,不能轉(zhuǎn)身看到背后。在他們背后有一堆火,火光將洞穴外走過的人和手持物體的影子投射到囚徒面前的墻壁上。由于囚徒只能看到這些影子,他們便認(rèn)為影子是現(xiàn)實(shí)世界的全部。其中生成過程對(duì)應(yīng)外面士兵及他手持的三維物體的運(yùn)動(dòng),這是現(xiàn)實(shí)世界狀態(tài)的真實(shí)演變。而洞穴中的囚徒所看到的,不過是這些三維物體在墻上的二維投影,這構(gòu)成了囚徒頭腦中的生成模型。囚徒所能做的就是通過陰影來推斷物體的真實(shí)形態(tài)。
圖5. 柏拉圖洞穴思想實(shí)驗(yàn)
這種根據(jù)已知觀測(cè)信息去推斷未知信息(在這里指世界背后的真實(shí)狀態(tài))的過程就是貝葉斯定理的核心思想。例如,當(dāng)我們從遠(yuǎn)處辨認(rèn)一個(gè)模糊的輪廓時(shí),我們可以運(yùn)用貝葉斯定理來評(píng)估這個(gè)輪廓是人還是樹的概率,并據(jù)此做出推斷,這個(gè)過程通常是在我們大腦的潛意識(shí)中自動(dòng)完成的,并不需要進(jìn)行刻意的、有意識(shí)的計(jì)算。這種由觀察結(jié)果反推原因的方法,展示了智能體如何利用已有的信念和新的觀測(cè)數(shù)據(jù)不斷更新對(duì)世界的理解。
例如,我們的視覺感知不僅僅是被動(dòng)地接收外界的信息,而是包含了一個(gè)主動(dòng)的推斷過程。在一些情況下,如果呈現(xiàn)給我們的視覺信息是模糊或誤導(dǎo)性的,大腦會(huì)根據(jù)以往的經(jīng)驗(yàn)和預(yù)期來做出推斷,導(dǎo)致我們“看到”一些實(shí)際上并不存在的事物。一個(gè)例子是著名的“繆勒-萊爾錯(cuò)覺”(Müller-Lyer illusion),兩條相同長(zhǎng)度的線因?yàn)榧^的指向不同,給人造成了長(zhǎng)度不同的錯(cuò)覺。
圖6. 繆勒-萊爾錯(cuò)覺
19世紀(jì)德國(guó)物理學(xué)家赫爾曼·馮·亥姆霍茲(Hermannvon Helmholtz)是首位將大腦比作一個(gè)假設(shè)檢驗(yàn)機(jī)器的科學(xué)家。他提出,人類的感知系統(tǒng)可以被視為一個(gè)統(tǒng)計(jì)推斷引擎,功能是根據(jù)感官輸入來推斷最可能的原因。亥姆霍茲對(duì)產(chǎn)生知覺的“物理活動(dòng)”進(jìn)行了如下描述:“(它們)一般不是有意識(shí)的,而是無意識(shí)的。就結(jié)果來看它們就像推理活動(dòng),因?yàn)槲覀兪菑挠^察到的感官結(jié)果得出這種結(jié)果的原因。即使我們實(shí)際上只能直接接觸神經(jīng)層面的事件,也就是說,我們感知到的是感官結(jié)果,而不是外部對(duì)象?!保êツ坊羝?,1867年,翻譯來自《預(yù)測(cè)心智》一書中文版)
到了20世紀(jì)末,Peter Dayan和Geoffrey Hinton在他們的開創(chuàng)性工作“sleep-wake算法”和“亥姆霍茲?rùn)C(jī)”中[1,2],將熱力學(xué)與統(tǒng)計(jì)物理學(xué)中的自由能概念引入機(jī)器學(xué)習(xí)領(lǐng)域。在熱力學(xué)中,亥姆霍茲自由能定義為系統(tǒng)的能量減去其熵與絕對(duì)溫度的乘積,用公式表示為 F=U-TS,其中U是系統(tǒng)的內(nèi)能,T是溫度,S是熵。在機(jī)器學(xué)習(xí)中引入變分分布后,變分自由能的概念被提出,它可以視為熱力學(xué)自由能的信息論同構(gòu)物。變分自由能通過結(jié)合模型的生成概率和觀測(cè)數(shù)據(jù)的概率分布,為學(xué)習(xí)算法提供了一個(gè)優(yōu)化目標(biāo)。在這一框架下,變分自由能的最小化等價(jià)于數(shù)據(jù)的最大似然,這使得學(xué)習(xí)過程可以看作是在尋找能夠最好解釋觀測(cè)數(shù)據(jù)的模型參數(shù)。
進(jìn)入21世紀(jì),這一關(guān)于感知推斷的視角得到了進(jìn)一步的發(fā)展,形成了所謂的“貝葉斯大腦假說”,它將大腦的感知和決策過程視為一個(gè)貝葉斯推斷的過程。這一假說認(rèn)為,大腦不斷地根據(jù)先驗(yàn)知識(shí)和新的感官證據(jù)更新其對(duì)世界的估計(jì)和預(yù)測(cè)。
圖7. “貝葉斯大腦假說”將大腦的感知和決策過程視為一個(gè)貝葉斯推斷的過程。
上圖是貝葉斯定理的數(shù)學(xué)形式,貝葉斯定理是概率論中的一條重要定理,告訴我們?nèi)绾我罁?jù)觀察到的結(jié)果逆向推斷出潛在原因,可以看作是一種由果溯因的推理方式。以貝葉斯定理為基礎(chǔ),我們可以將智能體的感知和行動(dòng)過程視為貝葉斯推斷的實(shí)踐。在感知方面,我們根據(jù)觀測(cè)到的狀態(tài)來推斷和更新對(duì)世界真實(shí)狀態(tài)的估計(jì);而在行動(dòng)方面,我們依據(jù)自身的偏好和信念來推斷應(yīng)采取的行動(dòng)。
然而,從公式中可以看到僅憑貝葉斯公式直接獲得狀態(tài)的后驗(yàn)估計(jì)面臨一個(gè)復(fù)雜的數(shù)學(xué)挑戰(zhàn)。觀測(cè)的邊際概率P(B)需要對(duì)所有可能的狀態(tài)進(jìn)行積分才能得到。為應(yīng)對(duì)這一難題,我們引入一個(gè)近似的后驗(yàn)分布,將推斷問題轉(zhuǎn)化為最優(yōu)化問題:尋找一個(gè)近似后驗(yàn)分布,使其盡可能地接近真實(shí)后驗(yàn)分布。變分自由能作為衡量?jī)烧呔嚯x的上界,我們的目標(biāo)便轉(zhuǎn)變?yōu)樽钚』@一變分自由能,以此達(dá)到優(yōu)化推斷的目的。關(guān)于變分貝葉斯更詳細(xì)的內(nèi)容以及具體的公式推導(dǎo)會(huì)在后續(xù)系列文章中進(jìn)行介紹。
感知、模型學(xué)習(xí)和動(dòng)作選擇均可以理解為追求最小化自由能的過程。在這一過程中,感知與模型學(xué)習(xí)主要依托于當(dāng)前及歷史觀測(cè)數(shù)據(jù),而動(dòng)作選擇則著眼于未來還未發(fā)生的觀測(cè)數(shù)據(jù)。在主動(dòng)推理的框架下,根據(jù)時(shí)間維度的劃分,自由能被分解為兩個(gè)部分:一部分是著眼于過去的變分自由能,它涉及對(duì)現(xiàn)有和歷史數(shù)據(jù)的分析;另一部分是著眼于未來的期望自由能,它關(guān)乎通過行動(dòng)使得未來的觀測(cè)數(shù)據(jù)符合預(yù)期信念。
從貝葉斯定理演進(jìn)到主動(dòng)推理的道路中,我們看到了什么是自由能,以及如何最小化自由能。然而,一個(gè)更深層次的問題尚未得到解答:為何我們會(huì)追求最小化自由能,或者說,為何生物體要致力于最小化驚奇(surprise)?為了深入這一問題,我們需要將視野提升至更高層次——透過隨機(jī)動(dòng)力系統(tǒng)這一數(shù)學(xué)物理視角,我們將看到生物體得以存在的必要條件就是最小化自由能。
通過這種高層次的分析,我們開始理解,自由能最小化不僅是一個(gè)數(shù)學(xué)上的概念,而是生物體適應(yīng)環(huán)境、維持內(nèi)部穩(wěn)態(tài)、并有效預(yù)測(cè)未來事件的關(guān)鍵機(jī)制。這一原理指導(dǎo)著生物體如何通過內(nèi)部模型來預(yù)測(cè)和解釋外部世界,從而在不斷變化的環(huán)境中生存和延續(xù)。
3. 主動(dòng)推理的第二條道路:從隨機(jī)動(dòng)力系統(tǒng)出發(fā)
生物系統(tǒng)可以被視為一個(gè)處于非平衡穩(wěn)態(tài)的開放系統(tǒng),它們不斷地與外界交換物質(zhì)和能量。在數(shù)學(xué)上,這類系統(tǒng)可以被建模為隨機(jī)動(dòng)力系統(tǒng),以捕捉其內(nèi)在的動(dòng)態(tài)性和隨機(jī)性。其中,“非平衡”指的是系統(tǒng)與外界之間有能量或物質(zhì)的交換,意味著系統(tǒng)不是封閉的,也不是靜止的,而是處于持續(xù)的變化之中。而“穩(wěn)態(tài)”則指盡管有交換發(fā)生,系統(tǒng)的一些宏觀性質(zhì)在一定時(shí)間內(nèi)相對(duì)穩(wěn)定,表現(xiàn)出一種動(dòng)態(tài)的平衡。這種穩(wěn)定性是通過系統(tǒng)內(nèi)部的調(diào)節(jié)機(jī)制和反饋循環(huán)實(shí)現(xiàn)的,使得生物系統(tǒng)能夠在面對(duì)環(huán)境變化時(shí)保持功能和結(jié)構(gòu)的連貫性。
一個(gè)典型的例子就是人體的體溫調(diào)節(jié)。無論外部環(huán)境如何變化,人體的生理機(jī)制都能通過調(diào)節(jié)血管的擴(kuò)張與收縮、汗腺的分泌以及代謝率等,保持體溫在大約37攝氏度的恒定水平。
從隨機(jī)動(dòng)力系統(tǒng)出發(fā)的自由能原理路徑想要回答的一個(gè)核心問題就是,生物系統(tǒng)如何抵抗外界環(huán)境波動(dòng)所帶來的耗散效應(yīng)?換句話說,外界環(huán)境在不斷變化,如果生物系統(tǒng)不能抵抗這種變化維持內(nèi)部狀態(tài)的穩(wěn)定就會(huì)死亡。有兩種方式可以維持內(nèi)部狀態(tài)的穩(wěn)定,一種方式是改變內(nèi)部狀態(tài)降低對(duì)環(huán)境的“驚奇”,也就是內(nèi)部狀態(tài)應(yīng)該盡可能準(zhǔn)確預(yù)測(cè)外部的環(huán)境狀態(tài),另一種方式是通過行動(dòng)改變外界狀態(tài)使得內(nèi)部狀態(tài)維持在預(yù)期的范圍內(nèi)。
還是以體溫調(diào)節(jié)為例,設(shè)想你穿著短袖衣物站在冰天雪地的戶外,短期內(nèi),你的身體會(huì)通過內(nèi)在的調(diào)節(jié)機(jī)制來保持體溫接近37攝氏度,這是人體的理想內(nèi)穩(wěn)態(tài)。這一過程涉及到改變身體的內(nèi)部狀態(tài),以適應(yīng)外部環(huán)境的挑戰(zhàn)。然而,如果長(zhǎng)時(shí)間暴露在如此惡劣的低溫環(huán)境中,即便是最健康的身體也終將無法承受,無法繼續(xù)維持這一內(nèi)穩(wěn)態(tài),最終導(dǎo)致死亡。幸運(yùn)的是,與單純的內(nèi)部調(diào)節(jié)相比,我們還擁有另一種強(qiáng)大的能力——通過行動(dòng)來改變環(huán)境狀態(tài),進(jìn)而維持體內(nèi)溫度的穩(wěn)態(tài)。例如,我們可以增添衣物,或是尋找一個(gè)溫暖的地方避寒。這些行動(dòng)改變了我們所處的環(huán)境條件,幫助我們維持了體內(nèi)溫度的穩(wěn)定。
需要注意的是,這個(gè)例子雖然直觀,但它簡(jiǎn)化了實(shí)際情況。實(shí)際上,身體對(duì)內(nèi)部狀態(tài)的調(diào)節(jié)不僅關(guān)注于當(dāng)前時(shí)刻的狀態(tài),而是著眼于整個(gè)隨機(jī)動(dòng)力系統(tǒng)的穩(wěn)態(tài)分布。這種穩(wěn)態(tài)分布受到智能體感知過程和行動(dòng)策略的影響,不同的感知過程或行動(dòng)策略可能會(huì)導(dǎo)致不同的穩(wěn)態(tài)分布。概括來說,生物體通過復(fù)雜的內(nèi)在調(diào)節(jié)和行為適應(yīng),不斷尋求在變化的環(huán)境中保持穩(wěn)態(tài)。而那些不那么幸運(yùn)的生物系統(tǒng),由于不能有效使穩(wěn)態(tài)分布的熵達(dá)到最小化,在自然選擇的過程中難以存續(xù)。
圖8. 系統(tǒng)的狀態(tài)可分為四類:代表外部環(huán)境的外部狀態(tài)(external state)、智能體的觀測(cè)狀態(tài)(sensation state)、內(nèi)部狀態(tài)(internal state)以及動(dòng)作狀態(tài)(action state)。
以上提供了一種直觀的理解,從更正式的隨機(jī)動(dòng)力系統(tǒng)的角度出發(fā)建模生物系統(tǒng),我們可將系統(tǒng)的狀態(tài)分為四類:代表外部環(huán)境的外部狀態(tài)、智能體的觀測(cè)狀態(tài)、內(nèi)部狀態(tài)以及動(dòng)作狀態(tài)。在感知過程中,觀測(cè)狀態(tài)映射到內(nèi)部狀態(tài),在采取行動(dòng)策略時(shí),內(nèi)部狀態(tài)映射到動(dòng)作狀態(tài)。智能體的觀測(cè)狀態(tài)和動(dòng)作狀態(tài)共同構(gòu)成了所謂的馬爾可夫毯(Markov blanket)。在給定馬爾可夫毯的條件下,智能體的內(nèi)部狀態(tài)與外部環(huán)境狀態(tài)在統(tǒng)計(jì)上是獨(dú)立的。這種獨(dú)立性為智能體提供了一種基礎(chǔ),使其能夠抵抗環(huán)境擾動(dòng)帶來的耗散效應(yīng)。
正如薛定諤指出,生命系統(tǒng)擁有一種非凡的能力:它們能夠抵御外界環(huán)境的干擾,違背熱力學(xué)第二定律所描述的自然趨勢(shì),維持自身的有序狀態(tài)。相較之下,非生命系統(tǒng)往往因無法抵御這些干擾而走向解體。以雪花的消融為例,當(dāng)它從高空飄落,接近地面時(shí),溫度逐漸升高使其融化成雨滴。我們可以說雪花這個(gè)物體由于不能抵抗外界溫度的升高維持內(nèi)部狀態(tài)的穩(wěn)定從而走向消亡,設(shè)想如果雪花能裝上一雙翅膀,向上飛行,它就能保持原有的形態(tài)。
這里,我們所要探討的問題不僅是生命系統(tǒng)如何能夠抵御外界的干擾,更重要的是,一個(gè)系統(tǒng)需要滿足哪些條件,才能具備這種抵御能力,從而成為我們所理解的生命。答案是只有那些能夠最小化自身自由能的系統(tǒng),才能有效抵抗環(huán)境的擾動(dòng),持續(xù)存在。
圖9. 生命系統(tǒng)擁有一種非凡的能力,能夠抵御外界環(huán)境干擾,維持自身的有序狀態(tài),而像雪花這樣的非生命系統(tǒng)則不能。
從系統(tǒng)生物學(xué)的角度,生命體可以類比為一個(gè)處于穩(wěn)態(tài)分布的隨機(jī)動(dòng)力系統(tǒng)[4,5]。在這個(gè)系統(tǒng)中,我們假設(shè)存在可遍歷(ergodic)的隨機(jī)動(dòng)態(tài)吸引子(random dynamical attractor),意味著有一組經(jīng)常被訪問的吸引狀態(tài)。還是以體溫為例,它不會(huì)進(jìn)行無序的隨機(jī)游走,而是在某個(gè)特定值附近波動(dòng)。該動(dòng)力系統(tǒng)在長(zhǎng)時(shí)間演化下,這些吸引狀態(tài)的時(shí)間平均可以代表狀態(tài)的分布密度,這個(gè)密度被稱為遍歷密度(ergodic density),遍歷密度可以通過Fokker-Planck方程的穩(wěn)態(tài)解得到(Fokker-Planck方程表示連續(xù)時(shí)間隨機(jī)過程的概率密度函數(shù)的演化)。借助于遍歷密度的概念,我們得以進(jìn)一步利用香農(nóng)熵來定義隨機(jī)動(dòng)力系統(tǒng)的遍歷熵(ergodic entropy)。遍歷熵是對(duì)系統(tǒng)長(zhǎng)期行為的統(tǒng)計(jì)特性的一種度量,它可以被理解為當(dāng)時(shí)間趨向于無窮大時(shí),系統(tǒng)狀態(tài)的“驚奇”路徑積分。在這里,“驚奇”(surprise)指的是狀態(tài)的負(fù)對(duì)數(shù)似然概率(即-lnp(s)),一個(gè)狀態(tài)的驚奇越大,該狀態(tài)發(fā)生的概率越小。
圖10. 生命體可以類比為一個(gè)處于穩(wěn)態(tài)分布的隨機(jī)動(dòng)力系統(tǒng),我們假設(shè)這個(gè)系統(tǒng)中存在可遍歷的隨機(jī)動(dòng)態(tài)吸引子。
智能體應(yīng)該使得系統(tǒng)的遍歷熵保持在一個(gè)盡可能低的水平。然而,由于智能體無法直接訪問外部狀態(tài),因此需要通過最小化觀測(cè)狀態(tài)的熵,間接地實(shí)現(xiàn)對(duì)外部隱藏狀態(tài)熵的控制。為了使觀測(cè)狀態(tài)的熵盡可能低,系統(tǒng)需要在內(nèi)部狀態(tài)中包含盡可能多的關(guān)于外部狀態(tài)的信息,實(shí)現(xiàn)對(duì)觀測(cè)狀態(tài)盡可能準(zhǔn)確的預(yù)測(cè),這等同于最小化觀測(cè)狀態(tài)的“驚奇”度。換句話說,智能體的感知和動(dòng)作應(yīng)該旨在最小化“驚奇”。自由能可以視為感官驚奇的一個(gè)上界。因此,通過最小化自由能,智能體實(shí)際上也在最小化其“驚奇”。
通過改變感知過程和行動(dòng)策略,系統(tǒng)能夠有效降低自由能,隱含地使得該系統(tǒng)能夠?qū)⑼獠繝顟B(tài)的“驚奇”最小化,同時(shí)使得系統(tǒng)的熵達(dá)到最小化,從而維持其有序的存在狀態(tài)。用一個(gè)簡(jiǎn)單的比喻來說,想象一個(gè)在森林中尋找食物的動(dòng)物。如果這個(gè)動(dòng)物能夠預(yù)測(cè)食物出現(xiàn)的地方(比如通過觀察其他動(dòng)物的行為或者環(huán)境的線索),它就可以更有效地找到食物,而不是在森林里隨機(jī)游蕩。通過最小化自由能,動(dòng)物實(shí)際上是在最小化尋找食物時(shí)的“驚奇”和不確定性,確保自己能夠生存下去。
由此可以看出,最小化自由能是生物系統(tǒng)為了生存和適應(yīng)環(huán)境所演化出的一種必要機(jī)制。這一過程將問題從“生物體需要如何行動(dòng)來獲取食物”轉(zhuǎn)變?yōu)椤盀榱松?,生物必須?zhí)行哪些行動(dòng)”。可以通過物理學(xué)哈密頓力學(xué)中局部視角和全局視角進(jìn)行類比。局部視角關(guān)注于粒子在相空間中遵循哈密頓正則方程的具體演化過程。相對(duì)地,全局視角——即哈密頓的最小作用量原理——表明,在所有可能的運(yùn)動(dòng)路徑中,真實(shí)的系統(tǒng)演化路徑是那條使得作用量取極小值的路徑。同樣地,智能體采用使自由能取最小值的方式進(jìn)行感知和行動(dòng),這也為什么自由能原理被譽(yù)為統(tǒng)一生物體感知和行動(dòng)的第一性原理。
至此,我們分別從底層路徑和頂層路徑介紹了自由能原理及主動(dòng)推理框架的基本思想。作為一種高度抽象的底層原理,自由能原理在認(rèn)知科學(xué)與神經(jīng)科學(xué)領(lǐng)域等具有廣泛應(yīng)用,我們將在下一篇繼續(xù)介紹。
參考文獻(xiàn)
1. HintonG E, Dayan P, Frey B J, et al. The" wake-sleep" algorithm forunsupervised neural networks[J]. Science, 1995, 268(5214): 1158-1161.
2. DayanP, Hinton G E, Neal R M, et al. The helmholtz machine[J]. Neural computation,1995, 7(5): 889-904.
3. FristonK, Kilner J, Harrison L. A free energy principle for the brain[J]. Journal ofphysiology-Paris, 2006, 100(1-3): 70-87.
4. FristonK, Ao P. Free energy, value, and attractors[J]. Computational and mathematicalmethods in medicine, 2012, 2012.
5. KarlF. A free energy principle for biological systems[J]. Entropy, 2012, 14(11):2100-2121.
6. ParrT, Pezzulo G, Friston K J. Active inference: the free energy principle in mind,brain, and behavior[M]. MIT Press, 2022.
7. ClarkA. Surfing uncertainty: Prediction, action, and the embodied mind[M]. OxfordUniversity Press, 2015.
8. Hafner D, Ortega P A, Ba J, et al. Action and perception asdivergence minimization[J]. arXiv preprint arXiv:2009.01791, 2020.
9. Mazzaglia P, Verbelen T, ?atal O, etal. The free energy principle for perception and action: A deep learningperspective[J]. Entropy, 2022, 24(2): 301.
本文為科普中國(guó)·創(chuàng)作培育計(jì)劃扶持作品
作者:牟牧云
審核:張江 北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授
出品:中國(guó)科協(xié)科普部
監(jiān)制:中國(guó)科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司