亚洲少妇高潮24P,aⅴ无码天堂av,国产一区二区在线免费观看

大模型是人類終結者還是新的小白鼠

人們傾向于好萊塢似的討論技術問題這幾周，媒體被“人工智能教父” 辛頓（Geoffrey Hinton）的故事所吸引，他離開谷歌，為了更自由地談論人工智能對人類構成的威脅。辛頓的重點是人工智能正處于變得比人類更聰明的風口，會具備能力欺騙和操縱人類聽從它的命令。在接受《衛(wèi)報》采訪時，辛頓說：“我之所以不那么樂觀，是因為我不知道任何更聰明的東西被不太聰明的東西控制的例子。你需要想象比我們更聰明的東西，就像我們比青蛙更聰明一樣。說'好吧，不要把他們連接到互聯(lián)網(wǎng)'很好，但只要他們在和我們說話，他們就可以讓我們做事。”

谷歌DeepMind首席執(zhí)行官Demis Hassabis也大膽預測，人類水平的人工智能(AI)可能在幾年內(nèi)實現(xiàn)。碳基生命會變成硅基生命的啟動加載器？這是非常有吸引力的故事，對辛頓等權威的關注以及對于大模型原理的未知，讓人們會傾向于好萊塢似的討論技術問題。 “恐懼”來自對大模型涌現(xiàn)能力的未知筆者從OpenAI 開放ChatGPT不久就開始一直試用，被其能力所驚艷的同時，也在嘗試從各種維度探索和理解其背后的機理。筆者猜測辛頓的“恐懼”主要來自對大模型“涌現(xiàn)”能力的未知。如“涌現(xiàn)：21 世紀科學的統(tǒng)一主題”一文中所述“事實上，我們生活在一個涌現(xiàn)的宇宙中，在這個宇宙中，即使不是不可能，也很難確定任何現(xiàn)有的有趣科學問題或研究，任何社會或經(jīng)濟行為，不是涌現(xiàn)的。”涌現(xiàn)普遍存在，科學家們也正在積極探索各個領域的“涌現(xiàn)”行為，所以個人覺得不必悲觀，人類終將理解和掌握涌現(xiàn)，特別是當下，人類親自制造了大模型的涌現(xiàn)，可控可研究，對人類理解宇宙涌現(xiàn)行為或許是個巨大的契機。

人類親自制造的大模型可控關于大模型的可控，微軟今天恰逢其時地放出了最新的APO論文（Automatic Prompt Optimization with "Gradient Descent" and Beam Search， https://arxiv.org/abs/2305.03495）：大型語言模型(LLM)作為通用代理已經(jīng)表現(xiàn)出了令人印象深刻的性能，但是它們的能力仍然高度依賴于手寫的提示，而這些提示是通過繁重的試錯工作完成的。我們提出了一個簡單的非參數(shù)化的解決方案，自動提示優(yōu)化(APO) ，它受到數(shù)字梯度下降法的啟發(fā)，假定能夠訪問訓練數(shù)據(jù)和 LLM API，自動改進提示。該算法使用小批量數(shù)據(jù)來檢視當前提示的自然語言“梯度”。然后通過在梯度的相反語義方向上編輯提示，將梯度“傳播”到提示中。這些梯度下降法步驟是由定向搜索和強制選擇程序指導的，這顯著提高了算法效率。三個基準 NLP 任務的初步結果以及 LLM 越獄檢測的新問題表明，APO通過使用數(shù)據(jù)將模糊的任務描述重寫為更精確的注釋指令，可以優(yōu)于以前的提示編輯技術，并將初始提示的性能提高高達31% 。

剛剛招募的提示工程師馬上就要失業(yè)了，通過這種簡單通用的提示優(yōu)化算法，可以自動改進 LLM 的提示，顯著減少花費在手動研究提示方法上的時間和精力。進一步表明大模型完全可以控制，而且是用AI來調(diào)控AI。人類區(qū)別于其他物種的最大特性是會使用“工具”，這一點似乎LLM也會（例如調(diào)用API），不過人們可以在使用“工具”前面，加上“創(chuàng)造性地”。

人類親自制造的大模型亦可研究（一）可控的同時，人們也在用先進的技術手段掃描大模型的“大腦”，窺見他的神經(jīng)元回路。也就是在今天，OpenAI 公布了他們采用新工具解釋語言模型行為的研究進展：語言模型變得更強大，部署更廣泛，但我們不了解它們是如何工作的。最近的工作在理解少量回路和有限的行為方面取得了進展，但要完全理解語言模型，我們需要分析數(shù)百萬個神經(jīng)元。本文將自動化應用于擴展可解釋性技術到大型語言模型中所有神經(jīng)元的問題。我們希望基于這種自動化解釋性的方法，將使我們能夠在部署前全面審核模型的安全性。OpenAI 的工具利用設置將模型分解為多個部分。首先，該工具通過正在評估的模型運行文本序列，并等待特定神經(jīng)元頻繁“激活”的情況。接下來，這些高度活躍的神經(jīng)元被展示給GPT-4 并生成解釋。為了確定解釋的準確性，該工具為 GPT-4 提供了文本序列，并讓它預測或模擬神經(jīng)元的行為方式。然后將模擬神經(jīng)元的行為與實際神經(jīng)元的行為進行比較。

人類親自制造的大模型亦可研究（二）這個領域突然被關注或許跟OpenAI的主導地位有關。無獨有偶，幾天前筆者就看到來自麻省理工學院、哈佛大學和美國東北大學的研究團隊提出了稀疏探測，這是一種旨在識別與特定特征相關的 LLM 神經(jīng)元的技術或概念，并有助于理解高級人類可解釋的特征如何在此類模型的神經(jīng)元激活中表示。論文參見Finding Neurons in a Haystack: Case Studies with Sparse Probinghttps://arxiv.org/pdf/2305.01610.pdf。

在他們的實證研究中，該團隊使用自回歸transformer LLM，針對 k 個神經(jīng)元的一系列值訓練探針，并報告了它們的分類性能。他們將主要發(fā)現(xiàn)總結如下：1.LLM 的神經(jīng)元內(nèi)有大量可解釋的結構，稀疏探測是定位此類神經(jīng)元（即使處于疊加狀態(tài)）的有效方法，但需要仔細使用和后續(xù)分析才能得出嚴格的結論。2.許多早期層神經(jīng)元處于疊加狀態(tài)，其中特征表示為多語義神經(jīng)元的稀疏線性組合，每個神經(jīng)元都會激活大量不相關的 n-gram 和局部模式。此外，根據(jù)權重統(tǒng)計和玩具模型的見解，我們得出結論，前 25% 的全連接層比其余層使用更多的疊加。3.更高層次的上下文和語言特征（例如，is_python_code）似乎是由單語義神經(jīng)元編碼的，主要在中間層，盡管關于單語義的結論性陳述在方法論上仍遙不可及。4.隨著模型規(guī)模的增加，表示稀疏性平均增加，但不同的特征服從不同的動態(tài)：一些具有專用神經(jīng)元的特征隨著規(guī)模出現(xiàn)，其他分裂成具有規(guī)模的更細粒度的特征，許多保持不變或隨機出現(xiàn)。

AI 物理學將可以解釋大模型的原理在“萬引大神: 機器學習不存在了”文中，筆者提到：微軟總部研究院機器學習理論組負責人、萬引大神Sebastien Bubeck宣稱傳統(tǒng)機器學習已經(jīng)不存在了，他和他的團隊全面轉向 AI 物理學。他說：問題在于我們不是在模仿人類的學習，我們真正試圖模仿的是一些類似于進化的東西。這是一種非常不同的風格。我認為我們在機器學習中引入的所有工具在GPT-4的光芒下幾乎無用且不相關，因為這是一個新領域。我們嘗試研究的方法是嘗試理解“涌現(xiàn)現(xiàn)象”，還有另一個領域長期以來一直在研究“涌現(xiàn)現(xiàn)象”，即我們試圖研究非常復雜的粒子相互作用的系統(tǒng)，以及導致某些涌現(xiàn)行為的系統(tǒng)。大神提出的建議是：讓我們研究人工智能的物理學或者通用人工智能的物理學，因為從某種意義上講，我們現(xiàn)在真正看到的是這種通用智能。那么，研究通用人工智能的物理學意味著什么？它的意思是，讓我們試著借鑒物理學家過去幾個世紀用來理解現(xiàn)實的方法論。

“ChatGPT是第一個真正意義的人工通用智能”開始，筆者就嘗試用物理的方法解釋大模型行為：借助Embedding ，GPT 將人類的語言 “編碼”成自己的語言，然后通過注意力Attention從中提取各種豐富的知識和結構，加權積累與關聯(lián)生成自己的語言，然后“編碼”回人類的語言。GPT在自己構造的高維語言空間中，通過預訓練，記錄了人類海量的語言實例，借助transformer從中提取了無數(shù)的結構與關聯(lián)信息。這個高維的語言空間，加上訓練提取的結構與關聯(lián)信息，可以理解構成了GPT的腦。GPT 構建了海量自然語言和代碼的概率分布空間，被注入足夠的信息量（等于注入大量負的信息熵），形成各種復雜關聯(lián)的模式，涵蓋自然語言和代碼中各種知識與結構。這些知識和結構，體現(xiàn)為概率分布的距離與關系，從而為對比、類比、歸納、演繹等推理步驟提供支撐，也就是“涌現(xiàn)出”這些推理能力。相變、涌現(xiàn)以及對稱性破缺物理學早有研究筆者接下來也探討了“相變與涌現(xiàn)以及對稱性破缺”：相變也可以被視為一個臨界點（Critical Point），系統(tǒng)的行為在此臨界點處會發(fā)生突變。在這個臨界點上，溫度或壓力的微小變化可以導致系統(tǒng)性質的巨大改變。這是因為系統(tǒng)處于兩個相之間的邊界上，小的擾動可以推動它落入其中一個相或另一個相。相變可能導致出乎意料的涌現(xiàn)（emergent）現(xiàn)象。理解相變可以幫助我們更好地理解和預測復雜系統(tǒng)中的這些突然變化，以便更好的理解和掌握涌現(xiàn)現(xiàn)象。相變往往伴隨著新對稱性或對稱性破缺的出現(xiàn)，這可以揭示系統(tǒng)涌現(xiàn)行為的深層次原理。沒有預訓練的Transformer是一張各向對稱的白紙，也就是其語言空間的密度函數(shù)ρ是均勻的。這個語言空間的密度函數(shù)決定了系統(tǒng)的信息熵，如果我們?nèi)匀话?ρ 表示成向量 η，則信息熵可以表示為F(η).隨著語料不斷被 emdedding 同時基于注意力機制 transform到這個語言空間，空間的密度ρ/η發(fā)生改變，信息熵 F(η)隨著改變，引發(fā)語言空間對稱性破缺與重建。這個過程可能會在局部區(qū)域不同尺度下持續(xù)的進行。一旦觸及臨界點，對稱性破缺引發(fā)相變，大模型就會在某些領域、不同長度上下文表現(xiàn)出各種神奇的涌現(xiàn)能力。也就是語言空間中，出現(xiàn)了局部的”學習語言需要相變“中提到的語言結晶（筆者第一次提出，展示了人類的創(chuàng)造性??）。

來自斯坦福學者的質疑不久前，斯坦福學者對大模型涌現(xiàn)提出了異議“別太迷信大模型涌現(xiàn)能力，那是度量選擇的結果”。百家爭鳴，越辯越明。筆者第一時間拜讀了他們的論文，發(fā)現(xiàn)一個有待商榷的基礎問題：首先論文沒有討論“少樣本學習”或“上下文學習”或GPT4，但個人覺得不是重點，重點是論文作者選擇的這個線性指標“Token Edit Distance”并不適合用來衡量大模型的語義能力。Token Edit Distance的局限性明顯，打個比方，冰變成水，你衡量水分子的距離或溫度，看不出物質宏觀形態(tài)的變化。

毛毛蟲身上沒有任何東西可以告訴你它將成為一只蝴蝶，形象深刻的描述了涌現(xiàn)的神奇。所以測量毛毛蟲是否涌現(xiàn)，要宏觀觀測它真的變成了蝴蝶。“大型語言模型的涌現(xiàn)能力”一文提到的大模型的涌現(xiàn)，如上面這顆智慧樹，是實打實對LLM客觀能力通過人類觀測得到的結論：隨著LLMs的擴展，它們達到了一系列關鍵的規(guī)模，這些規(guī)模突然“解鎖”了新的能力。LLMs并沒有直接訓練這些能力，它們出現(xiàn)在快速且不可預測的方式中，就好像從空氣中涌現(xiàn)一樣。這些涌現(xiàn)的能力包括執(zhí)行算術、回答問題、概括段落等等，LLMs通過觀察自然語言而學會了這些能力。第一性原理決定大模型不再是煉金術對于當今世界上最銳意創(chuàng)新的大佬埃隆馬斯克來說，“第一性原理”的思考方式是用物理學的角度看待世界的方法，也就是說一層層剝開事物的表象，看到里面的本質，然后再從本質一層層往上走。他用最質樸的語言解釋了“統(tǒng)計力學”這一第一性原理的思維模式，從微觀到宏觀，從部分到部分間的關聯(lián)再到整體。

“Transformer的物理原理”文中，作者就是從這種典型的統(tǒng)計力學視角和思維模式，在物理上為transformer找到了理論解釋：原型Transformer模塊的神經(jīng)網(wǎng)絡架構藍圖可以從經(jīng)典統(tǒng)計力學中熟悉的物理自旋系統(tǒng)的結構中導出。更具體地說，我們認為Transformer模塊的正向傳遞，可映射為矢量自旋模型中的計算磁化，作為對輸入數(shù)據(jù)的響應。我們將Transformer想象成可微自旋系統(tǒng)的集合，其行為可以通過訓練來塑造。通過從不相干的、統(tǒng)計力學的角度縮小和接近transformer，我們獲得了transformer的物理直覺，當我們把自己局限在在紛繁變化的顯式神經(jīng)網(wǎng)絡架構時，這種直覺似乎很難獲得。將transformer模塊視為偽裝的自旋模型不僅可以作為近似計算磁化的不同方法，統(tǒng)一架構變化，而且還可以闡釋transformer在深度學習中的經(jīng)驗性質的成功。伊辛模型 Ising Model 是用來解釋鐵磁系統(tǒng)相變的一個簡單模型，這樣就不難理解大模型中的相變了，從此大模型不再是煉金術，該量子的量子，該涌現(xiàn)的涌現(xiàn)。

總結：如上文筆者所說，科學家們正在積極探索各個領域的“涌現(xiàn)”行為，所以個人覺得不必悲觀，人類終將理解和掌握涌現(xiàn)，特別是當下，人類親自制造了大模型的涌現(xiàn)，可控可研究，對人類理解宇宙涌現(xiàn)行為或許是個巨大的契機。用好大模型這個新的小白鼠，可以從語言的、物理的、數(shù)學的、涌現(xiàn)的、演化的、理論的、實驗的不同角度，多做各種深度探索。人類的科學理論，從地心說到日心說到現(xiàn)在的“宇宙心說”，其實都是對人類所處的大宏觀物理系統(tǒng)的盲人摸象。我們的人工智能科學家們，發(fā)明了眾多的先進的學習算法，玻爾茲曼機，變分推斷，生成對抗網(wǎng)絡，逆向強化學習，直到當今如日中天的GPT，都曾經(jīng)激發(fā)了人們對通用人工智能的遐想：AI 有了自己的思維，人類迭代出了新物種。但即使面對如三體人這樣先進的新物種，人類依然可以依靠羅輯來拯救。

作者：王慶法麻省理工學院物理系學者，數(shù)據(jù)領域專家，首席數(shù)據(jù)官聯(lián)盟專家組成員