版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

更大的語言模型更不可靠?最新研究顛覆認(rèn)知!

中國(guó)科普博覽
原創(chuàng)
中國(guó)科協(xié)、中科院攜手“互聯(lián)網(wǎng)+科普”平臺(tái),深耕科普內(nèi)容創(chuàng)作
收藏

出品:科普中國(guó)

作者:王琛(中國(guó)科學(xué)院計(jì)算技術(shù)研究所)

監(jiān)制:中國(guó)科普博覽

編者按:為展現(xiàn)智能科技動(dòng)態(tài),科普中國(guó)前沿科技項(xiàng)目推出“人工智能”系列文章,一窺人工智能前沿進(jìn)展,回應(yīng)種種關(guān)切與好奇。讓我們共同探究,迎接智能時(shí)代。

近日,瓦倫西亞理工大學(xué)的研究團(tuán)隊(duì)在《Nature》上發(fā)表了他們的最新研究成果:更大的語言模型更不可靠。這一發(fā)現(xiàn)顛覆了人們先前的認(rèn)知,即模型的能力會(huì)隨著模型參數(shù)量的增長(zhǎng)而增長(zhǎng)。為了理解這項(xiàng)研究成果的意義,我們先來回顧一些關(guān)于機(jī)器學(xué)習(xí)模型能力的研究。

面對(duì)新數(shù)據(jù)“不懂變通”,模型開始“過擬合”!

機(jī)器學(xué)習(xí)模型的學(xué)習(xí)過程,本質(zhì)上是在對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并把統(tǒng)計(jì)結(jié)果存儲(chǔ)在模型參數(shù)中。當(dāng)模型參數(shù)量增長(zhǎng)時(shí),模型的存儲(chǔ)容量變大,從而可以存儲(chǔ)更多的知識(shí)。然而,過多的參數(shù)量有時(shí)卻反而會(huì)導(dǎo)致模型發(fā)生過擬合。

過擬合是什么意思呢?過擬合是指模型過于精確地?cái)M合了訓(xùn)練數(shù)據(jù),以至于無法良好地?cái)M合新的數(shù)據(jù)的現(xiàn)象,舉一個(gè)例子來說明:

過擬合的分類模型

(圖片來源:維基百科)

上圖是一個(gè)分類模型的示意圖,圖中的紅色點(diǎn)和藍(lán)色點(diǎn)是模型需要區(qū)分的樣本,我們希望模型可以找到一個(gè)邊界,使得紅色點(diǎn)和藍(lán)色點(diǎn)被分到邊界的兩側(cè)。

圖中的黑色曲線代表合理的邊界劃分,而綠色曲線代表過擬合時(shí)的邊界劃分。這兩條曲線都可以區(qū)分模型的訓(xùn)練數(shù)據(jù)(無邊框的樣本點(diǎn)),其中綠色曲線的表現(xiàn)甚至更好。但當(dāng)遇到了新的數(shù)據(jù)(有邊框的樣本點(diǎn))時(shí),綠色曲線的表現(xiàn)反而比黑色曲線更差了。

綜上所述,模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)更好而在新的數(shù)據(jù)上表現(xiàn)更差的現(xiàn)象就是過擬合,此時(shí)的模型牢牢“記住”了訓(xùn)練數(shù)據(jù)中的知識(shí),而在面對(duì)新的數(shù)據(jù)時(shí)顯得“不懂變通”。

當(dāng)一個(gè)模型的參數(shù)量足夠大時(shí),它總能將訓(xùn)練數(shù)據(jù)擬合得很好,因?yàn)樗梢詫⒂?xùn)練數(shù)據(jù)以某種方式全部存儲(chǔ)在自己的模型參數(shù)中。但我們訓(xùn)練模型并不是為了簡(jiǎn)單地記憶訓(xùn)練數(shù)據(jù),而是為了用它來預(yù)測(cè)新的數(shù)據(jù)。我們將模型在新的數(shù)據(jù)上的能力稱作模型的泛化能力,模型過擬合會(huì)導(dǎo)致它的泛化能力下降。

在上面的例子中,綠色曲線和黑色曲線都可以良好地?cái)M合訓(xùn)練數(shù)據(jù),我們?cè)趺粗滥囊环N更好呢?如果只考慮訓(xùn)練數(shù)據(jù),能夠區(qū)分兩類樣本點(diǎn)的曲線實(shí)際上有無數(shù)條,哪一條能夠在新的數(shù)據(jù)上表現(xiàn)更好,有更強(qiáng)的泛化能力呢?

奧卡姆剃刀原理:選擇最簡(jiǎn)單的方法

在哲學(xué)中,奧卡姆剃刀原理給出了這一問題的答案。奧卡姆剃刀原理又被稱為簡(jiǎn)約法則,它是指如果有多種理論能對(duì)同一問題作出同樣準(zhǔn)確的預(yù)測(cè),那么我們應(yīng)該選擇其中最簡(jiǎn)單的一種。

在上面的例子中,所謂的“最簡(jiǎn)單的一種”曲線就是需要最少的模型參數(shù)的一種曲線。圖中平滑的黑色曲線相比于曲折的綠色曲線需要更少的參數(shù)來存儲(chǔ),而它們的表現(xiàn)相近,因此,根據(jù)奧卡姆剃刀原理,我們傾向于選擇黑色曲線作為模型的決策邊界。

奧卡姆剃刀原理已經(jīng)在多個(gè)科學(xué)領(lǐng)域得到了驗(yàn)證。對(duì)于機(jī)器學(xué)習(xí)模型來說,簡(jiǎn)單的模型和復(fù)雜的模型能夠在訓(xùn)練數(shù)據(jù)上取得一樣的效果往往意味著簡(jiǎn)單的模型抓住了數(shù)據(jù)的一般性規(guī)律,因此簡(jiǎn)單的模型在新的數(shù)據(jù)上也能表現(xiàn)地更好。

模型復(fù)雜程度與誤差的關(guān)系

(圖片來源:維基百科)

上圖中展示了模型誤差隨模型復(fù)雜程度的典型變化,藍(lán)色線和紅色線分別代表模型在訓(xùn)練數(shù)據(jù)上的誤差和在新的數(shù)據(jù)上的誤差。

一開始,隨著模型的復(fù)雜程度增加,模型在訓(xùn)練數(shù)據(jù)和新的數(shù)據(jù)上的誤差都在減小。但當(dāng)?shù)竭_(dá)一個(gè)臨界點(diǎn)后,模型發(fā)生了過擬合,模型在訓(xùn)練數(shù)據(jù)上的誤差仍在減小,在新的數(shù)據(jù)上的誤差反而增加。

因此,為了避免模型過分記憶訓(xùn)練數(shù)據(jù)本身的特征,反而忽略了數(shù)據(jù)的一般性規(guī)律,有時(shí)我們寧愿選擇在訓(xùn)練數(shù)據(jù)上表現(xiàn)稍差的模型。

總而言之,當(dāng)模型的參數(shù)量上升時(shí),模型的復(fù)雜程度增加,模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)變好,但它在新的數(shù)據(jù)上的泛化能力不一定會(huì)變好,反而可能會(huì)下降。為了讓模型在新的數(shù)據(jù)上取得較好的泛化能力,我們不能無休止地增加模型的參數(shù)量。

通用人工智能的災(zāi)難性遺忘

對(duì)于單一任務(wù)來說,增大機(jī)器學(xué)習(xí)模型的參數(shù)量無法使模型的能力持續(xù)提升。但對(duì)于通用人工智能來說,它需要解決各種各樣復(fù)雜的問題,會(huì)需要更多的參數(shù),因此增大通用人工智能的參數(shù)量可能對(duì)提升模型的能力有所幫助。

然而,如何獲得通用人工智能仍然是一個(gè)懸而未決的問題?,F(xiàn)在人工智能技術(shù)在各個(gè)領(lǐng)域都有著突出的表現(xiàn),但人工智能發(fā)展的終極目標(biāo)是構(gòu)建出一個(gè)能解決任何問題的通用人工智能,而不是對(duì)每一個(gè)問題單獨(dú)訓(xùn)練一個(gè)特定的人工智能模型。

如果我們已經(jīng)有了一個(gè)能夠解決A問題的模型和一個(gè)能夠解決B問題的模型,應(yīng)該如何獲得一個(gè)既能夠解決A問題也能夠解決B問題的模型呢?我們不能將兩個(gè)模型的參數(shù)簡(jiǎn)單疊加起來,因?yàn)檫@兩個(gè)模型它們本身的結(jié)構(gòu)可能并不相同。即使結(jié)構(gòu)相同,參數(shù)相互疊加也是沒有意義的,參數(shù)中的知識(shí)并不能通過疊加而累積,反而會(huì)受到破壞。

為了得到能夠解決A和B兩個(gè)問題的模型,一個(gè)可能的方法是先令模型學(xué)習(xí)A問題,再讓模型學(xué)習(xí)B問題。為了使模型在A和B兩個(gè)問題上都有良好表現(xiàn),我們當(dāng)然需要比只解決A問題的模型或只解決B問題的模型更多的參數(shù)。如果模型能將它所擁有的參數(shù)一部分分配給A問題,一部分分配給B問題,那么我們就能預(yù)期模型可以同時(shí)學(xué)習(xí)到如何解決這兩個(gè)問題。

不幸的是,事實(shí)并非如此。在模型學(xué)習(xí)A問題后再去學(xué)習(xí)B問題的過程中,往往會(huì)發(fā)生“災(zāi)難性遺忘”,即在學(xué)習(xí)B問題后,模型遺忘了它學(xué)習(xí)到的關(guān)于A問題的知識(shí),因此該模型在A問題上的表現(xiàn)又變得很差。

對(duì)于人類來說,我們?cè)趯W(xué)習(xí)時(shí)會(huì)觸類旁通,掌握了某一問題的規(guī)律后對(duì)于學(xué)習(xí)同類問題的規(guī)律也有所幫助。但對(duì)于機(jī)器學(xué)習(xí)模型,先后學(xué)習(xí)的不同任務(wù)會(huì)相互抵觸,這使得通用人工智能難以實(shí)現(xiàn)。

通用人工智能的曙光:大語言模型的“涌現(xiàn)”現(xiàn)象!

在以ChatGPT為代表的大語言模型出現(xiàn)之后,人們仿佛看到了通用人工智能實(shí)現(xiàn)的曙光。語言作為人類溝通的橋梁與一切知識(shí)的載體,是人類必不可少的能力。同時(shí),語言也影響著人類的思考方式。因此,通用人工智能為了學(xué)習(xí)人類的知識(shí),必然要掌握人類的語言。

大語言模型的學(xué)習(xí)對(duì)象是人類的語言,因此各種不同的問題都可以轉(zhuǎn)換成語言的形式再讓模型去學(xué)習(xí),從而讓模型具有解決多種問題的能力,在一定程度上避免了災(zāi)難性遺忘的問題。

更加驚人的是,在大語言模型的發(fā)展中,研究人員發(fā)現(xiàn)增加模型的規(guī)模不但沒有出現(xiàn)明顯的過擬合,模型反而產(chǎn)生了“涌現(xiàn)”的現(xiàn)象。

大語言模型的能力“涌現(xiàn)”

(圖片來源:參考文獻(xiàn)1)

上圖中展示了不同大語言模型在不同任務(wù)中的精度隨著模型訓(xùn)練規(guī)模的變化,圖中的虛線表示隨機(jī)猜測(cè)的精度。從圖中可以看到,隨著訓(xùn)練規(guī)模的增加,一開始模型的精度并沒有明顯地增加,仍然和隨機(jī)猜測(cè)的精度相近。直到訓(xùn)練規(guī)模超過了某一臨界點(diǎn),模型的能力開始快速隨著訓(xùn)練規(guī)模增加而增加,這種現(xiàn)象稱為“涌現(xiàn)”。

涌現(xiàn)現(xiàn)象在自然界中也能經(jīng)常觀察到。例如,人類是由細(xì)胞構(gòu)成的,但人類卻擁有單個(gè)細(xì)胞所沒有的智能。當(dāng)孤立的個(gè)體構(gòu)成一個(gè)復(fù)雜的系統(tǒng)時(shí),可能會(huì)涌現(xiàn)出個(gè)體所沒有的能力,正所謂量變產(chǎn)生質(zhì)變。

盡管大語言模型仍然存在著各種各樣的問題,尚未成為真正的通用人工智能,但不可否認(rèn)的是,大語言模型代表了人工智能技術(shù)的一次重大飛躍,是如今最接近通用人工智能的成果之一。

更大的語言模型反而更不可靠?

瓦倫西亞理工大學(xué)的研究團(tuán)隊(duì)在《Nature》上發(fā)表的最新論文指出,當(dāng)大語言模型的規(guī)模更大更有指導(dǎo)能力后,反而變得更不可靠了。

不同規(guī)模大語言模型的指標(biāo)對(duì)比

(圖片來源:參考文獻(xiàn)2)

上圖中展示了研究人員對(duì)不同規(guī)模大語言模型的可靠性對(duì)比的結(jié)果,圖中黃色和橘色部分代表較小的模型,藍(lán)色部分代表較大的模型。在圖中可以看到,較大的模型在穩(wěn)定性和正確率上都超過了較小的模型。然而,較大的模型在謹(jǐn)慎度以及難度一致性上,相比于較小的模型,反而表現(xiàn)更差。

謹(jǐn)慎度作為一種評(píng)估指標(biāo),是指模型在遇到無法解決的問題時(shí)回避回答問題的能力,較小的模型較為謹(jǐn)慎,而較大的模型在遇到無法解決的問題時(shí),會(huì)直接給出錯(cuò)誤的答案。

難度一致性是指人類與模型對(duì)于問題難度評(píng)估的一致性。例如對(duì)于人類所認(rèn)為的較為簡(jiǎn)單的加法問題,模型可能會(huì)做錯(cuò),而對(duì)于人類認(rèn)為較為復(fù)雜的科學(xué)問題,模型卻能給出較為準(zhǔn)確的答案。當(dāng)模型的規(guī)模變大時(shí),模型在復(fù)雜科學(xué)問題上的準(zhǔn)確性大幅提升,在簡(jiǎn)答加法上的準(zhǔn)確性卻沒有得到足夠提升,這導(dǎo)致難度一致性這一評(píng)估指標(biāo)的下降。

這兩種指標(biāo)之所以重要,是因?yàn)橹?jǐn)慎度的下降讓更大的模型傾向于在不能解決問題時(shí)也不承認(rèn)自己無法解決問題,而是給出一個(gè)似是而非的答案,這讓我們更難判斷模型給出的答案是否正確。

同時(shí),當(dāng)我們使用模型來解決一個(gè)特定問題時(shí),根據(jù)問題的復(fù)雜程度,我們對(duì)模型答案的正確性有一個(gè)心理預(yù)期。當(dāng)問題較為復(fù)雜時(shí),我們并不期望模型給出完全正確的回答,而當(dāng)問題較為簡(jiǎn)單時(shí),我們更傾向于相信模型能夠給出正確的答案。然而,難度不一致性的下降,導(dǎo)致我們會(huì)錯(cuò)誤地估計(jì)模型答案的正確性,從而錯(cuò)誤地相信模型對(duì)我們覺得簡(jiǎn)單的問題的答案,讓模型變得更不可靠。

正確性的提升表明了更大的模型擁有更強(qiáng)的能力,然而謹(jǐn)慎度與難度一致性的下降則使得更大的模型變得更不可靠。

論文中指出,這可能是因?yàn)榇笳Z言模型在規(guī)模變大和微調(diào)的過程中發(fā)生了過擬合。在模型的訓(xùn)練過程中,人們傾向于讓模型總體上有更高的準(zhǔn)確率、減少回避問題并更有指導(dǎo)能力,而不是讓模型能夠在簡(jiǎn)單問題上完全正確并且在適當(dāng)?shù)臅r(shí)候承認(rèn)自己的無知,這導(dǎo)致了模型的可靠性下降。

研究人員表示,為了提升模型的可靠性,在模型訓(xùn)練過程中,我們需要關(guān)注模型的難度一致性,同時(shí)將訓(xùn)練目標(biāo)從消除模型對(duì)問題的回避轉(zhuǎn)變?yōu)榻虒?dǎo)模型在什么時(shí)候應(yīng)該進(jìn)行正確的回避,特別是對(duì)于醫(yī)學(xué)以及其他容錯(cuò)較小的關(guān)鍵領(lǐng)域。

更大的語言模型更不可靠的問題在一定程度上真實(shí)存在,但這并不意味著更大的語言模型的能力反而更弱。只是我們先前過于關(guān)注模型的能力,反而忽視了模型在真實(shí)應(yīng)用中的可靠性。未來,研究人員需要進(jìn)一步考慮如何對(duì)模型的能力和可靠性進(jìn)行權(quán)衡,從而讓大語言模型能夠取得廣泛的應(yīng)用。

參考文獻(xiàn):

1.Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., ... & Fedus, W. (2022). Emergent abilities of large language models. arXiv preprint arXiv:2206.07682.

2.Zhou, L., Schellaert, W., Martínez-Plumed, F. et al. Larger and more instructable language models become less reliable. Nature 634, 61–68 (2024). https://doi.org/10.1038/s41586-024-07930-y

內(nèi)容資源由項(xiàng)目單位提供

評(píng)論
無為通達(dá)
學(xué)士級(jí)
大型語言模型的可靠性問題是一個(gè)復(fù)雜而重要的議題,需要我們持續(xù)關(guān)注和研究。通過不斷的技術(shù)創(chuàng)新和優(yōu)化,我們有望在未來克服這些挑戰(zhàn),使大型語言模型在更多領(lǐng)域發(fā)揮更大的作用。
2024-10-18
內(nèi)蒙古郭蘭芳
太傅級(jí)
更大的語言模型更不可靠的問題在一定程度上真實(shí)存在,但這并不意味著更大的語言模型的能力反而更弱
2024-10-18
臭皮匠心
學(xué)士級(jí)
當(dāng)模型的參數(shù)量上升時(shí),模型的復(fù)雜程度增加,模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)變好,但它在新的數(shù)據(jù)上的泛化能力不一定會(huì)變好,反而可能會(huì)下降。為了讓模型在新的數(shù)據(jù)上取得較好的泛化能力,我們不能無休止地增加模型的參數(shù)量。
2024-10-18