導(dǎo)語
自由能原理被認為是“自達爾文自然選擇理論后最包羅萬象的思想”,從第一性原理出發(fā)解釋智能體更新認知、探索和改變世界的機制,被認為有可能成為智能的第一性原理的重要候選方案,并有望成為新時代復(fù)雜系統(tǒng)的大統(tǒng)一理論。自由能原理對強化學(xué)習(xí)世界模型、通用人工智能等前沿方向具有重要啟發(fā)意義,本文介紹自由能原理在神經(jīng)科學(xué)、人工智能等領(lǐng)域的應(yīng)用。
關(guān)鍵詞:自由能原理,主動推理,強化學(xué)習(xí)世界模型,強化學(xué)習(xí)探索,預(yù)測編碼理論,預(yù)測加工理論
作者|牟牧云
編輯|梁金
目錄
1. 智能的第一性原理
2. 意識理論:預(yù)測加工理論與預(yù)測編碼理論
3. 強化學(xué)習(xí)世界模型與強化學(xué)習(xí)探索
4. 最后
1、智能的第一性原理
以ChatGPT為代表的大語言模型的誕生,讓我們看到了通用人工智能的曙光。ChatGPT的核心原理在于訓(xùn)練一個參數(shù)龐大的神經(jīng)網(wǎng)絡(luò),它能夠從海量的文本數(shù)據(jù)中學(xué)習(xí)如何根據(jù)輸入的一段文字預(yù)測下一個詞語。然而,一些批評者質(zhì)疑,這不過是模型通過龐大的參數(shù)量來記憶訓(xùn)練文本,類似于鸚鵡學(xué)舌,并非真正的智能,也缺乏創(chuàng)造力。但事實真的如此嗎?或許預(yù)測這件事情并不像我們想象的這么簡單。
圖靈獎得主、深度學(xué)習(xí)之父Geoffrey Hinton,提出這樣的觀點:“為了精確預(yù)測下一個詞,模型必須理解上下文,這涉及到對問題或?qū)υ拑?nèi)容的深入理解。因此,預(yù)測下一個詞的行為實際上迫使模型去理解語境,這種理解方式與人類的思維方式有相似之處?!盚inton的學(xué)生、OpenAI前首席科學(xué)家、被譽為ChatGPT之父的IlyaSutskever,在多次采訪中強調(diào):“當(dāng)我們訓(xùn)練一個大型神經(jīng)網(wǎng)絡(luò)來準確預(yù)測互聯(lián)網(wǎng)上眾多不同文本中的下一個單詞時,我們實際上是在學(xué)習(xí)一個世界模型?!?/p>
世界模型(World Model)可以看作是一種高度抽象和壓縮的信息表示,它能夠捕捉并模擬現(xiàn)實世界中的關(guān)鍵特征和規(guī)律,從而使得智能體能夠進行有效的預(yù)測和決策。這一觀點可以被概括為“預(yù)測即壓縮,壓縮即智能”。然而,為何通過預(yù)測能夠?qū)崿F(xiàn)類似人類的語言理解和思考能力,人工智能算法背后仍然缺少一個原理性的解釋。
這是因為,這些基于深度學(xué)習(xí)和大模型的人工智能系統(tǒng)都存在一個共同的弱點:它們大多是通過工程技術(shù)手段構(gòu)建的,缺乏對智能本質(zhì)的深刻理解。當(dāng)前人工智能研究偏重于實現(xiàn)技術(shù)細節(jié),卻忽略了真正智能的基本原理。例如,現(xiàn)有人工智能系統(tǒng)能耗巨大,而人類大腦卻以遠低于此的能耗完成各種復(fù)雜任務(wù)。因此,我們迫切需要尋找智能的第一性原理。
在這方面,Karl Friston 的自由能原理可能成為智能的第一性原理的重要候選方案。自由能原理提出了生物系統(tǒng)如何通過減少自由能來理解和適應(yīng)環(huán)境的理論框架。它將系統(tǒng)視為試圖最小化與外部世界的差異,以最有效地預(yù)測和適應(yīng)外部環(huán)境的變化。通過最小化自由能,系統(tǒng)調(diào)整內(nèi)部表示和行為,實現(xiàn)更好的環(huán)境適應(yīng)性。這一理論不僅適用于認知神經(jīng)科學(xué)和人工智能領(lǐng)域,還可應(yīng)用于其他領(lǐng)域,如機器學(xué)習(xí)和自動控制。
自由能原理不僅可以解釋智能現(xiàn)象,還可以解釋從物質(zhì)到生命的各種現(xiàn)象,可能成為新時代復(fù)雜系統(tǒng)的大統(tǒng)一理論。通過自由能原理,我們可以更深入地理解智能系統(tǒng)如何運作,為未來的人工智能研究和發(fā)展提供更加深刻和基礎(chǔ)的理論支持。
自由能的概念起源于統(tǒng)計物理和熱力學(xué),后被引入機器學(xué)習(xí)和信息加工領(lǐng)域,表示系統(tǒng)內(nèi)部表征狀態(tài)與環(huán)境真實狀態(tài)間的差異。自由能原理認為,所有可變的量,只要作為系統(tǒng)的一部分,都會為最小化自由能而變化。自由能原理提供了一個統(tǒng)一的規(guī)范性理論,用于理解和模擬復(fù)雜系統(tǒng)的自組織、自適應(yīng)行為,特別是在生物系統(tǒng)和大腦功能方面。這一原理不僅解釋了感知、行為和學(xué)習(xí)的統(tǒng)一過程,還對復(fù)雜系統(tǒng)建模、認知過程和意識的理解,以及生物和人工智能系統(tǒng)的設(shè)計原則產(chǎn)生了深遠影響,跨越了生物學(xué)、神經(jīng)科學(xué)、心理學(xué)和人工智能等多個領(lǐng)域,為揭示這些系統(tǒng)背后的統(tǒng)一原理提供了有力的工具。
這篇文章我們介紹自由能原理作為一種高度抽象的底層原理,在認知神經(jīng)科學(xué)、強化學(xué)習(xí)等領(lǐng)域的廣泛應(yīng)用。
2. 預(yù)測加工與預(yù)測編碼理論
自由能原理是一種廣泛適用的理論,它認為所有非平衡穩(wěn)態(tài)系統(tǒng)——從微小的細菌到復(fù)雜的動物,甚至包括人類社會和生態(tài)系統(tǒng)——都在追求自由能的最小化。當(dāng)這一原理應(yīng)用于人腦時,它激發(fā)了一系列具體的理論和實踐框架,例如預(yù)測編碼理論(Predictive Coding)和預(yù)測加工模型(Predictive Processing)。預(yù)測編碼理論和預(yù)測加工模型是兩個緊密相關(guān)的概念,預(yù)測編碼理論提供了一個關(guān)于大腦如何運作的高層次描述,而預(yù)測加工模型則提供了一個具體的計算框架來實現(xiàn)這一理論。它們在認知科學(xué)和神經(jīng)科學(xué)中描述了大腦如何處理信息。
圖1. 預(yù)測加工模型
預(yù)測編碼理論認為,大腦通過不斷生成關(guān)于外部世界和內(nèi)部狀態(tài)的預(yù)測,并將其與實際感覺輸入相比較來執(zhí)行其功能。這種比較如果出現(xiàn)偏差,將產(chǎn)生預(yù)測誤差,這一誤差信號隨后會被反饋至大腦的更高層次,用以調(diào)整和優(yōu)化內(nèi)部模型,目的是減少未來的預(yù)測誤差。這個過程體現(xiàn)了自上而下的預(yù)測信息流和自下而上的感覺信息流的交互。
預(yù)測加工模型可以看作是預(yù)測編碼理論的一個具體實現(xiàn),它提供了一個計算和數(shù)學(xué)框架來描述大腦如何通過預(yù)測和更新來處理信息,這一模型和上述提到的貝葉斯定理出發(fā)的主動推理路徑一脈相承,為解釋大腦的認知行為現(xiàn)象提供了有力工具。
在實證研究中,重復(fù)抑制現(xiàn)象(Repetition suppression)是一個典型例子,它在多種情境下均有體現(xiàn),比如EEG研究中的失匹配負相關(guān)(Mismatch Negativity)和fMRI研究中的面部處理。重復(fù)抑制現(xiàn)象揭示了當(dāng)被試面對重復(fù)出現(xiàn)的刺激時,其誘發(fā)反應(yīng)會減少或受到抑制。根據(jù)自由能原理,不可預(yù)測或不連貫的刺激會引發(fā)比熟悉或連貫的刺激更大的預(yù)測誤差,這一點在相應(yīng)腦區(qū)的激活水平上得到了實證支持[3]。
圖2. 向被試呈現(xiàn)相同面孔時,第一次呈現(xiàn)(藍色)和第二次呈現(xiàn)(紅色)的反應(yīng)
不論是預(yù)測編碼理論還是預(yù)測加工模型,都認為預(yù)測在大腦認知活動中扮演著重要(甚至是唯一重要)的功能,這與文章開頭提到的“預(yù)測即壓縮,壓縮即智能”的觀點形成了共鳴,進一步強調(diào)了預(yù)測在智能行為中的基礎(chǔ)性地位。對于自由能原理在大腦認知以及意識領(lǐng)域應(yīng)用感興趣的讀者可以參考《預(yù)測心智》和《預(yù)測算法》兩本書。
3. 強化學(xué)習(xí)世界模型與強化學(xué)習(xí)探索
人工智能領(lǐng)域中強化學(xué)習(xí)(ReinforcementLearning,簡寫為RL)與以自由能原理基礎(chǔ)的主動推理框架存在緊密聯(lián)系,智能體的感知與行動是二者共同關(guān)心的話題。
圖3. 人工智能領(lǐng)域中的強化學(xué)習(xí)與以自由能原理基礎(chǔ)的主動推理框架存在緊密聯(lián)系
強化學(xué)習(xí)中關(guān)系的核心問題是智能體如何通過觀測和行動與環(huán)境進行交互以獲得最大的累積獎勵,強化學(xué)習(xí)方法可以分為無模型強化學(xué)習(xí)(Model-free RL)與基于模型的強化學(xué)習(xí)(Model-based RL),后者又被稱為世界模型(WorldModel),這與主動推理框架中智能體內(nèi)部的生成模型一致。在主動推理框架中變分自由能最小化的過程可以看作是在模型預(yù)測準確性與模型復(fù)雜度之間進行平衡,這在強化學(xué)習(xí)中對應(yīng)世界模型的學(xué)習(xí)。主動推理框架中預(yù)期自由能最小化的過程包括信息增益與偏好兩個方面,分別對應(yīng)了強化學(xué)習(xí)中探索與利用的平衡。
在世界模型中,智能體首先通過觀測數(shù)據(jù)推斷隱狀態(tài)的動力學(xué)模型,學(xué)習(xí)世界模型后,智能體基于此模型進行決策規(guī)劃以及探索。在面對復(fù)雜的環(huán)境時,智能體往往需要學(xué)習(xí)一個多尺度的世界模型,世界模型的多尺度特性涉及時間和空間維度,以及狀態(tài)和動作兩個重要層面。
盡管在具體實現(xiàn)的細節(jié)上存在差異,我們?nèi)阅芸吹降絻烧咧g核心機制的高度相似性。這一發(fā)現(xiàn)啟示我們,不論是自然演化下的生物智能,還是由人類設(shè)計的人工智能,它們在運作的底層邏輯上或許殊途同歸。另一方面,強化學(xué)習(xí)領(lǐng)域研究中,新算法的設(shè)計大多依賴啟發(fā)式的想法,缺乏第一性原理。從自由能原理出發(fā),為不同強化學(xué)習(xí)算法提供了一個統(tǒng)一性的視角,對強化學(xué)習(xí)與自由能原理之間更深層聯(lián)系感興趣的讀者可以參考[8,9]。
4. 最后
當(dāng)然,自由能原理這一理論也并非完美,它仍然面臨許多爭議。作為一個高度抽象并聲稱適用于所有非平衡穩(wěn)態(tài)系統(tǒng)的理論,其可檢驗性是一個受到廣泛質(zhì)疑的點。當(dāng)這一原理應(yīng)用于具體系統(tǒng)時,往往需要研究者根據(jù)具體的研究問題提出新的假設(shè),這正是自由能原理以及主動推理框架規(guī)范性的一面。不過當(dāng)我們?yōu)樘囟▎栴}定義了狀態(tài)空間和生成模型,就可以從規(guī)范性理論過渡到過程理論,進而產(chǎn)生具體且可檢驗的實證預(yù)測。
自由能原理還是一個處于不斷發(fā)展和完善階段的理論,筆者受限于自己的知識視野,對于該理論的闡述難免存在不夠準確的地方。這一系列文章也是希望以介紹的方式與大家共同學(xué)習(xí),促進對這一原理更深入的理解。歡迎感興趣的朋友和我們一起探索!
參考文獻
1. HintonG E, Dayan P, Frey B J, et al. The" wake-sleep" algorithm forunsupervised neural networks[J]. Science, 1995, 268(5214): 1158-1161.
2. DayanP, Hinton G E, Neal R M, et al. The helmholtz machine[J]. Neural computation,1995, 7(5): 889-904.
3. FristonK, Kilner J, Harrison L. A free energy principle for the brain[J]. Journal ofphysiology-Paris, 2006, 100(1-3): 70-87.
4. FristonK, Ao P. Free energy, value, and attractors[J]. Computational and mathematicalmethods in medicine, 2012, 2012.
5. KarlF. A free energy principle for biological systems[J]. Entropy, 2012, 14(11):2100-2121.
6. ParrT, Pezzulo G, Friston K J. Active inference: the free energy principle in mind,brain, and behavior[M]. MIT Press, 2022.
7. ClarkA. Surfing uncertainty: Prediction, action, and the embodied mind[M]. OxfordUniversity Press, 2015.
8. Hafner D, Ortega P A, Ba J, et al. Action and perception asdivergence minimization[J]. arXiv preprint arXiv:2009.01791, 2020.
9. Mazzaglia P, Verbelen T, ?atal O, etal. The free energy principle for perception and action: A deep learningperspective[J]. Entropy, 2022, 24(2): 301.
本文為科普中國·創(chuàng)作培育計劃扶持作品
作者:牟牧云
審核:張江 北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授
出品:中國科協(xié)科普部
監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司