GPT4技術原理三:重整化群與生成式AI
雖然微軟科學家Bubeck宣稱傳統(tǒng)機器學習已經(jīng)不存在了,但是 AI 物理學還是實打實繼續(xù)存在的,而且還有可能在大模型時代爆發(fā)。本文是GPT4技術原理探索系列第三篇,探討一下重整化群與大模型的訓練和生成的背后機理。
“熟讀唐詩三百首,不會作詩也會謅”- 魯迅
魯迅先生可能很謙虛說這話不是他說的,但是卻不經(jīng)意間道出了大模型成功的真實邏輯。在熟讀天下文章三百T之后,大模型開始會謅“人話”了,而且頭頭是道。保守派學者認為大模型不過是“一本正經(jīng)的胡說八道”,但仔細想想誰又不是”一本正經(jīng)的胡說八道”呢?李白的詩句最典型:“白發(fā)三千丈,緣愁似個長”,“危樓高百尺,手可摘星辰”,“桃花潭水深千尺,不及汪倫送我情”,“飛流直下三千尺,疑是銀河落九天”,哪句不是一本正經(jīng)的胡說八道?而且保守派學者沒有深入研究 AI 物理學,就妄下結論,本身不也是某種意義上的“一本正經(jīng)的胡說八道”?!
言歸正傳,GPT4技術原理二:相變與涌現(xiàn)中我們提到,重整化群(下文簡稱RG: Renormalization Group) 是研究不同尺度下對稱性破缺與重建過程的核心數(shù)學手段。借助RG,人們可以在不同尺度上分析、觀察系統(tǒng)的特性。這是分層次結構化的認知思想,人們每天都在實踐。
為更好的理解RG,我們需要回顧一下”群(Group)“這一看似高深的數(shù)學概念。筆者大二還在學習數(shù)學分析、線性代數(shù)的時候,誤選了數(shù)學系研究生課程《李群與外微分》,還退不了,只好硬著頭皮一頭霧水的聽完。全程窘迫但是一個巨大的收益是,從此筆者不再對各種花樣玄妙的數(shù)學概念心生畏懼,即使仍然敬佩。實話實說,很多玄妙的概念是因為翻譯導致的,比如這里的”群(Group)“,比如”重整化“。
重整化群,李群,微信群,QQ群,這里”群“其實本質都是一個意思,英文是Group。就是一“組”什么事物,因為某種意義需要放在一起。群有群約定的規(guī)范,有了規(guī)范才具備這里的”某種意義“。這些約定的規(guī)范決定了群與群的不同,也就是這些約定的規(guī)范定義了群。記得當年筆者為了理解什么是群,翻遍了圖書館能見到的中文著作,一個比一個復雜抽象,滿篇的公式,沒有見到特別直觀intuitive的闡釋。
那數(shù)學上的群到底是什么意思呢?其實本質很簡單。數(shù)學上的群,就是定義了一組變換(Transformation),或者也可以叫操作(Operation)。群成員是一組Operator 或者 Transformer,你聯(lián)想到了大模型的Transformer? 酷,不過這里還是泛指變換,我們下文再談跟LLM Transformer的關系。如果我們用G 表示群,則G(X)就表示將群定義的變換或操作作用在對象X上。有別于微信群的群,數(shù)學上定義了這一組Operator ( 這里我們用E,A,B表示這些Operator ) 之間應該滿足的關系:
任何兩個operator相乘(AB)的結果還是群中的operator。相乘就是一個operator作用完,另一個operator再作用在其結果上, AB 就是B先作用,然后A作用;
存在單位operator E, 就是此operator作用在對象上,對象不變,E(X) = X;
如果AB=BA=E, 我們稱AB互逆, 每個operator 都得存在逆;
(AB)C = A(BC) 滿足可以互相結合,先算括弧里的,這個估計大家都熟;
你可能還是覺得operator聽起來玄乎抽象的,筆者為寫好此篇介紹,又去清華圖書館數(shù)學專著中尋覓,找到一本英文的最直觀的講群的書,劍橋大學出版社去年出版,作者是MIT學者?!禔n Introduction to Groups and their Matrices for Science Students》,筆者覺得本書作者Robert Kolenkow 是能夠化繁為簡,深入淺出娓娓道來的大師。大家可以支持他一下。本文不是小紅書種草文,是發(fā)自內(nèi)心的佩服,筆者真期望大二時候看到這本書。
引用一個書中的經(jīng)典例子,正三角形的旋轉,E 是轉0°,A是轉120°,B是轉240°。大家看看這三個Operator組成的群是不是滿足上述的約束?好的,這個就是經(jīng)典的Abelian Group。
大家可以自行閱讀此書哈,書中詳述了這些變換存在對應的數(shù)學上的矩陣表述。筆者在”迷人的數(shù)據(jù)與香農(nóng)的視角“一文中整理過:” 任何一個mxn的矩陣A, 都可以分解成三個矩陣的乘積, UEV’, U,V都是正交基組成的方陣,E是對角陣(可以不是方陣)“,”想象空間中的一個點(也可以叫向量)到另一個點的運動,也就是從一個向量變成另一個向量。其間發(fā)生了什么?從幾何意義上看,不過是一個向量分解到V上,然后分別做E描述的拉伸,再分解到U上。這個點到點的運動系統(tǒng)對外展現(xiàn)的信息用A表達了出來,而A中蘊含的動作是,在某些特定方向上的拉伸,也就是這個UEV中包含了A的潛變量,描述了運動的尺度與角度,在賦范空間,還會有長度,距離,體積這樣的概念。“
矩陣對應著某種變換,群中定義的這些變換可以轉化為相應的矩陣形式。這里注意我們提到這個變換是從一個固定坐標系角度觀察事物(x,y) 旋轉拉伸變成了(x',y'),而從另一個角度看來,(x, y)其實也可以認為沒變,變得是觀察者的新坐標系(X,Y) 變?yōu)椋╔',Y')。這個不起眼的”腦筋急轉彎“帶來了我們觀察世界翻天覆地的認知變化。也就是,事物(比如一幅圖像,一篇文字,一段語音)可能在其原始的坐標系(坐標系的維度通常可以類比事物的自由度)表現(xiàn)為極其復雜的形態(tài),而在另一個坐標系(比如低維度或者說低自由度)下面表現(xiàn)為及其簡單的形態(tài)。復雜是終極的簡單。
筆者在”薛定諤的佛與深度學習中的因果“中提到,“事物由不同層次的隨機變量展現(xiàn)出來的信息來表達,不同層次上的隨機變量攜帶不同的信息,共同組合影響上一層的隨機變量的信息表達,而隨機變量對外表達的信息則取決于該隨機變量的條件概率分布”。底層的多個獨立的隨機變量,如果都服從高斯分布,根據(jù)上文描述的特性,可以推斷,一層層堆疊構成上層的隨機變量之后,仍然服從高斯分布。而這個多個獨立的服從高斯分布的隨機變量的堆疊過程,就是典型的高斯過程。高斯過程是高斯概率分布在隨機函數(shù)空間的表現(xiàn)形式。
聰明的你可能很快注意到,這里說的不同層次的隨機變量有很好的性質,就是服從“高斯分布”。比如人們認識一張人臉,從眼角、眉梢、到額頭、五官,臉型,神態(tài)都可以捕獲不同層面的信息。濃眉大眼是你,神采奕奕也是你,都是從臉上蘊含的信息讀取出來的。這些“眼角、眉梢、到額頭、五官,臉型,神態(tài)”都可以是隨機變量,但他們大都是圍繞平均樣態(tài)的些許偏離,都是符合大數(shù)定律的偏離。而大數(shù)定律體現(xiàn)出這些變量的高斯分布規(guī)律。這些高斯分布的不同層次的隨機變量疊加就構成了這張臉。認知這張臉的學習過程,是逐層提取這些潛在隨機變量的過程,而生成人臉圖像的過程就是逐層采樣恢復并堆疊這些隨機變量的過程。
這里,如果用Z代表這張臉,借助我們剛才學會的群的數(shù)學形式可以表達為:G(Z) = G1G2G3G…Gn( Z )。這里的G1到Gn對應不同層次上Operation 或者說Transformation,也就是在各個層次的潛變量(“眼角、眉梢、到額頭、五官,臉型,神態(tài)”)構成的新坐標系里面的矩陣代表的變換。大家知道,這些潛變量都是對應著簡單的高斯分布的,其實都是個隨機函數(shù),Gx(Z)也就是Z這張臉在這些潛變量函數(shù)基張成的空間中的樣子。概率分布是歸一的,也就是normalize, 反復的normalize就是renormalize. 大家看看,“重整化”翻譯的多么誤導。但約定俗成,我們只能用這個。這其實就是重整化群學習和生成圖像的本質。簡單是終極的復雜。
在”漂亮國的核潛艇與深度學習的內(nèi)卷“(此文是筆者多年感悟的重要總結,請一定認真多讀幾遍)一文中,筆者總結過:玻爾茲曼機 Boltzmann Machine 踐行了重整化群 Renormalization Group 的思想,事實上,在神經(jīng)網(wǎng)絡中引入隱含節(jié)點就是尺度重整化。每一次尺度變換后,自由能保持不變。F =-lnZ, 這里Z是配分函數(shù),是一個能量(不同能級上粒子數(shù))的概率分布,Z不變,即能量的概率分布不變。重整化群給出了損失函數(shù),也就是不同層的F自由能的差異,或者說兩個能量概率分布的“距離”, 訓練就是來最小化這個距離。
我們中科院的學者對這一領域有重要的貢獻。上圖是RGFlow論文(https://arxiv.org/abs/2010.00029)中的最重要的一張圖。對一張圖像,重整化從細顆粒度到粗顆粒度,逐層提取潛變量Zn, 提取圖像中蘊含的各層次的結構;而生成圖像的過程就是從粗粒度,對潛變量的高斯概率分布進行采樣,重建下一個層次的結構(類似你跟別人描述這個人濃眉大眼)。重整化的群變換Gn 在生成過程中用到 Gn的逆。GPT 和其他大語言模型的使用的Transformer其實就可以類比這些重整化的群變換G,但是目前沒有看到學術研究Transformer 是否嚴格有逆,也就是是否構成嚴格意義上的群。
這是RGFlow 訓練與生成模型的刨面圖,當這個RG 模型看到過海量的人臉之后,它提取了來自廣泛樣本的人臉的各個層次的結構信息。生成的時候從中采樣即可,記住,這些結構信息都是體現(xiàn)為聯(lián)合概率分布,這些采樣都是在高斯的堆疊的聯(lián)合概率分布中采樣,然后通過RG 的operation 的逆運算,算出你想要的圖像。仔細體會一下,如果這個技術應用于文本,也就是熟讀文章300T, 出口成章也就不足為奇了。有些自媒體剪刀漿糊講的預測下一個單詞,其實就是采樣生成技術。魯迅先生說的是對的。
然而,機械的熟讀文章300T ,沒有涌現(xiàn)也是做不到如李白一樣文思泉涌的。上篇筆者提到:RG提供了一種研究微觀細節(jié)如何產(chǎn)生較大尺度新涌現(xiàn)特性的方法。其實當初科學家將RG用于研究連續(xù)相變臨界現(xiàn)象時,發(fā)現(xiàn)系統(tǒng)在不同尺度上,臨界點附近表現(xiàn)出的自相似,能用RG很好的描述。RG成為連續(xù)相變合理有效的理論表述,而連續(xù)相變則成為RG的物理基礎,重整化群的不穩(wěn)定不動點對應了相變的發(fā)生。
根據(jù)“系列文章深度解析ChatGPT獲得智能的數(shù)學物理機理“ 中的計劃,下篇我們看看Transformer與能量模型,RG可以作為其有效的建模方法。
作者:王慶法 麻省理工學院物理系學者,數(shù)據(jù)領域專家,首席數(shù)據(jù)官聯(lián)盟專家組成員