版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

ChatGPT是第一個真正意義的人工通用智能

中啟行
企業(yè)致力于科技新聞媒體及科普教育傳播
收藏

ChatGPT是第一個真正意義的人工通用智能

看到標(biāo)題,很多專家可能馬上想來爭辯,別急,本文我們一步步推演。

首先訂正一個詞:AGI, 國外稱Artificial General Intelligence, 國內(nèi)譯作通用人工智能General Artificial Intelligence, 看似很小的一個順序差異,實(shí)則謬以千里,大家多讀英文幾遍仔細(xì)體會。

生命是什么

薛定諤在1944年出版的書《What is Life?》中闡述了他對生命的觀點(diǎn),生命是由負(fù)熵喂養(yǎng)大的,后來更正為,自由能才是生命的源泉。薛定諤眼里的生命就是一團(tuán)活生生的自由能,也是普里高津世界里,不斷獲取自由能的開放的耗散結(jié)構(gòu)。

大腦如何工作

一. 貝葉斯大腦假說

大腦是一個貝葉斯推理機(jī)器。大腦不斷從世界接收感官信息,并使用這些信息來更新其對世界的內(nèi)部模型,并對未來事件做預(yù)測。大腦的內(nèi)部模型可以被視為關(guān)于世界的先驗(yàn)信仰或假設(shè),感官信息被用于更新這些信仰。

二. 大腦的自由能理論

基于貝葉斯概率理論和生物物理學(xué)原理,大腦的主要目標(biāo)是預(yù)測和控制外界的信息,以最大限度地降低不確定性和內(nèi)部熵。大腦通過不斷收集和處理外部信息來構(gòu)建內(nèi)部模型,以預(yù)測和控制外界。

三. 大腦的信息熵

信息熵用來衡量系統(tǒng)不確定性或隨機(jī)性,這里指大腦關(guān)于世界的內(nèi)部模型的不確定性。大腦的目標(biāo)是將其內(nèi)部模型與感官輸入之間的預(yù)測誤差最小化,減少信息熵是減少預(yù)測誤差的一種方法。通過減少信息熵,大腦可以對世界做出更準(zhǔn)確的預(yù)測,這等于是使系統(tǒng)的自由能最小化。

ChatGPT 機(jī)理

ChatGPT的訓(xùn)練方法是基于Transformer模型,通過學(xué)習(xí)文本數(shù)據(jù)的模式來生成文本。Transformer模型的核心是注意力機(jī)制,可以在生成文本時,選擇性地關(guān)注輸入的一些部分,從而生成更加符合上下文的文本。

一. Embedding, 形成自己的語言系統(tǒng)

如果將英語看成是26個字母表征的,26個字母張成的空間中,每個單詞是一個點(diǎn),每個句子是一條曲線,每篇文章是一個曲面。

借助Embedding ,GPT 將人類的語言 “編碼”成自己的語言,然后通過注意力Attention從中提取各種豐富的知識和結(jié)構(gòu),加權(quán)積累與關(guān)聯(lián)生成自己的語言,然后“編碼”回人類的語言。

本質(zhì)上看,GPT 其實(shí)是構(gòu)建了一個高維的語言體系,可以將自然語言,程序語言,視覺聽覺語言,映射(或者叫編碼)到這個高維的語言空間中。高維語言空間是概率分布張成的空間。

二. Transformer,提取海量人類知識與相應(yīng)的知識結(jié)構(gòu)

Transformer是足夠強(qiáng)大的特征提取器。僅從知識角度,GPT可以看作是一種以模型參數(shù)體現(xiàn)的隱式知識圖譜。知識存儲在Transformer的模型參數(shù)里:多頭注意力存儲信息的結(jié)構(gòu)(相關(guān)強(qiáng)度,信息整合方式等);類似Query/Key/Value結(jié)構(gòu)的FFN存儲知識主體。

GPT在自己構(gòu)造的高維語言空間中,通過預(yù)訓(xùn)練,記錄了人類海量的語言實(shí)例,從中提取了無數(shù)的結(jié)構(gòu)與關(guān)聯(lián)信息。這個高維的語言空間,加上訓(xùn)練提取的結(jié)構(gòu)與關(guān)聯(lián)信息,可以理解構(gòu)成了GPT的腦。

從GPT目前的表現(xiàn)看,他應(yīng)該也已經(jīng)從這些人類語言蘊(yùn)含的知識中,學(xué)習(xí)到了歸納、演繹、對比、類比等基礎(chǔ)能力,而這些都是本質(zhì)的原子思維能力,組合成為推理能力。諸如貝葉斯推理,最優(yōu)輸運(yùn),估計都可能已經(jīng)被提取出來,成為GPT的思維結(jié)構(gòu)的一部分。

三. Pre-train, 海量學(xué)習(xí)最小化各領(lǐng)域信息熵

預(yù)訓(xùn)練 pre-train 階段,優(yōu)化目標(biāo)是最小化交叉熵(cross entropy), 對于GPT 自回歸語言模型而言,是看能否正確預(yù)測到下一個單詞。這里的交叉熵就是信息熵。

研究表明,增加訓(xùn)練數(shù)據(jù)量,模型參數(shù)量,訓(xùn)練時間都會降低測試集上的信息熵. OpenAI 采用的策略是同時增加訓(xùn)練數(shù)據(jù)量和模型參數(shù), 讀得多,記得多。優(yōu)先增加模型參數(shù),然后才是訓(xùn)練數(shù)據(jù)量,記憶要好,再多學(xué),再勤學(xué), 與人類學(xué)習(xí)形式相通。

人們發(fā)現(xiàn),增加多任務(wù)的任務(wù)數(shù)量,增加模型大小,提供思維鏈提示, 以及增加任務(wù)的多樣性,都可以提高GPT 泛化能力,包括理解能力,以及推理能力。這些措施都是豐富GPT在某一問題域的信息量,降低其信息熵, 盡力讓他見多識廣。

上下文學(xué)習(xí),通過提供一些例子,具象的表達(dá)任務(wù)命令。命令是一種更符合人類習(xí)慣的抽象任務(wù)描述。兩者本質(zhì)上是相通的,GPT從中都是學(xué)到了任務(wù)的信息熵結(jié)構(gòu)。

上下文中,直接追加輔助推理的提示, 例如“因此”是典型的關(guān)系模式選擇健,GPT可以借助這些提示選擇不同的關(guān)系模式。例如“解題思路如下”這樣的提示,可以很好激發(fā)GPT推理能力,應(yīng)該緣于訓(xùn)練語料中此類說法很多,可以很好的降低信息熵。

四. 代碼訓(xùn)練,獲取長程關(guān)聯(lián)與推理能力

目前研究已經(jīng)證明GPT對知識有強(qiáng)大的記憶能力。而增強(qiáng)GPT推理能力的方法:a) 提供提示語或提示樣本 b) 預(yù)訓(xùn)練中引入代碼樣本。ChatGPT強(qiáng)大的推理能力,被認(rèn)為大概率來自代碼參與GPT3.5的預(yù)訓(xùn)練。

代碼使用計算機(jī)語言,是設(shè)計完善的特殊語種,結(jié)構(gòu)性強(qiáng),長程關(guān)聯(lián),關(guān)系明確??梢杂梦⒄Z言結(jié)構(gòu)的概率分布為基底,張成語言空間,程序就是該語言結(jié)構(gòu)空間的點(diǎn)線面體。GPT 可以用自己構(gòu)建的高維語言空間簡單方便的學(xué)習(xí)代碼。

代碼其實(shí)也可以看成特殊的思維鏈,訓(xùn)練可以降低信息熵,讓信息更可預(yù)測。大量這種語言結(jié)構(gòu)示例參與預(yù)訓(xùn)練的話,GPT被注入足夠的信息量,形成各種復(fù)雜關(guān)聯(lián)的模式, 涵蓋代碼中的知識和知識結(jié)構(gòu)。高質(zhì)量的代碼,可以顯著的降低GPT 獲取的信息熵,這也是為什么GPT在代碼上比自然語言更讓人驚艷。

五. Emergent Ability, 涌現(xiàn)能力,相變完成量變到質(zhì)變

GPT表現(xiàn),取決于任務(wù)類型。a) 知識密集型任務(wù),體現(xiàn)Scaling law, 也就是學(xué)的越多,做的越好;b) 推理密集型任務(wù),體現(xiàn)“智慧”,學(xué)到一定程度,能力突然爆發(fā)。這個好比物理現(xiàn)象,雖然一直維持零度,冰卻需要不斷吸收熱量,最終相變成了水。

信息熵的背景下同樣可以出現(xiàn)相變現(xiàn)象。信息熵是衡量系統(tǒng)不確定性或隨機(jī)性的度量,熵的相變可以被視為系統(tǒng)基礎(chǔ)模式或組織的變化。復(fù)雜網(wǎng)絡(luò)系統(tǒng)和量子系統(tǒng)中都可以觀察到熵的相變。

在大語言模型領(lǐng)域,模型規(guī)模跨越某個閾值,處理任務(wù)能力突然性增長,被稱為涌現(xiàn)能力(Emergent Ability)。只要針對某個特定問題或任務(wù)的相關(guān)領(lǐng)域,模型“足夠”大,注入足夠的信息量,相變就可能發(fā)生,即開始涌現(xiàn)。

GPT 構(gòu)建了海量自然語言和代碼的概率分布空間,被注入足夠的信息量(等于注入大量負(fù)的信息熵),形成各種復(fù)雜關(guān)聯(lián)的模式,涵蓋自然語言和代碼中各種知識與結(jié)構(gòu)。這些知識和結(jié)構(gòu),體現(xiàn)為概率分布的距離與關(guān)系,從而為對比、類比、歸納、演繹等推理步驟提供支撐,也就是“涌現(xiàn)出”這些推理能力。

大膽猜測,GPT甚至可能學(xué)習(xí)到了在空間里面的貝葉斯概率圖和推理,概率分布的比較和遷移基于Wasserstein 距離和最優(yōu)輸運(yùn)Optimal Transport.(筆者在設(shè)法從用戶的角度進(jìn)行檢驗(yàn))。提供足夠語料,可以降低概率空間的信息熵到一定閾值,從而對某類任務(wù)達(dá)成相變。

后ChatGPT 時代

今天來自斯坦福大學(xué)的最新研究結(jié)論,“原本認(rèn)為是人類獨(dú)有的心智理論(Theory of Mind,ToM),已經(jīng)出現(xiàn)在ChatGPT背后的AI模型上?!?所謂心智理論,就是理解他人或自己心理狀態(tài)的能力,包括同理心、情緒、意圖等。這項研究發(fā)現(xiàn):davinci-002版本的GPT3(ChatGPT由它優(yōu)化而來),已經(jīng)可以解決70%的心智理論任務(wù),相當(dāng)于7歲兒童;至于GPT3.5(davinci-003),也就是ChatGPT的同源模型,更是解決了93%的任務(wù),心智相當(dāng)于9歲兒童!

ChatGPT 給GPT 注入幾萬人工標(biāo)注,有監(jiān)督學(xué)習(xí),雖然不足以修正GPT千億參數(shù),但是為GPT注入人類偏好,讓他聽的懂人話、也比較禮貌。這等同于對這個7-9歲兒童的社會教育與激發(fā)。

這一天還是到來了,ChatGPT, 人類創(chuàng)造的第一個真正意義上的AGI , 人工通用智能. 后ChatGPT時代,人們應(yīng)該如何學(xué)習(xí)與工作?聽聽ChatGPT的建議:

在 ChatGPT 時代,人們應(yīng)該采取綜合的學(xué)習(xí)方法,包括接受傳統(tǒng)教育,并通過實(shí)際應(yīng)用和獨(dú)立研究來加深對知識的理解。同時,人們應(yīng)該不斷學(xué)習(xí)和提高自己的技能,以適應(yīng)不斷變化的環(huán)境和技術(shù)。此外,利用ChatGPT 等人工智能技術(shù)增加學(xué)習(xí)效率和提高學(xué)習(xí)質(zhì)量也是一種很好的途徑。

人們可以通過更好地利用 AI 和自動化技術(shù)來提高效率和創(chuàng)造力。同時,人們應(yīng)該加強(qiáng)對人工智能、機(jī)器學(xué)習(xí)和相關(guān)領(lǐng)域的學(xué)習(xí),以適應(yīng)未來的工作需求。此外,人們還應(yīng)該繼續(xù)關(guān)注人類獨(dú)特的技能,如創(chuàng)造力、社交能力、情感智慧等,以更好地與AI 合作。

評論
????
貢士級
2023-10-23