版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

Nature重磅:大模型的謊言如何“破”?

學(xué)術(shù)頭條
原創(chuàng)
一起見(jiàn)證人類(lèi)探索征途上的每一個(gè)重大突破。
收藏

世界衛(wèi)生組織(WHO)的人工智能健康資源助手 SARAH 列出了舊金山本不存在的診所的虛假名稱(chēng)和地址。

Meta公司“短命”的科學(xué)聊天機(jī)器人 Galactica 憑空捏造學(xué)術(shù)論文,還生成關(guān)于太空熊歷史的維基文章。

今年2月,加拿大航空被命令遵守其客戶(hù)服務(wù)聊天機(jī)器人捏造的退款政策。

去年,一名律師因提交充滿(mǎn)虛假司法意見(jiàn)和法律引用的法庭文件而被罰款,這些文件都是由 ChatGPT 編造的。

……

如今,大語(yǔ)言模型(LLM)胡編亂造的例子已屢見(jiàn)不鮮,但問(wèn)題在于,它們非常擅長(zhǎng)一本正經(jīng)地胡說(shuō)八道,編造的內(nèi)容大部分看起來(lái)都像是真的,讓人難辨真假。

在某些情況下,可以當(dāng)個(gè)樂(lè)子一笑而過(guò),但是一旦涉及到法律、醫(yī)學(xué)等專(zhuān)業(yè)領(lǐng)域,就可能會(huì)產(chǎn)生非常嚴(yán)重的后果。

圖片

如何有效、快速地檢測(cè)大模型的幻覺(jué)(hallucination),已成為當(dāng)前國(guó)內(nèi)外科技公司和科研機(jī)構(gòu)競(jìng)相關(guān)注的熱門(mén)研究方向。

如今,牛津大學(xué)團(tuán)隊(duì)提出的一種新方法便能夠幫助我們快速檢測(cè)大模型的幻覺(jué)——他們嘗試量化一個(gè)LLM產(chǎn)生幻覺(jué)的程度,從而判斷生成的內(nèi)容有多忠于提供的源內(nèi)容,從而提高其問(wèn)答的準(zhǔn)確性。

研究團(tuán)隊(duì)表示,他們的方法能在LLM生成的個(gè)人簡(jiǎn)介,以及關(guān)于瑣事、常識(shí)和生命科學(xué)這類(lèi)話(huà)題的回答中識(shí)別出“編造”(confabulation)。

該研究意義重大,因?yàn)樗鼮闄z測(cè) LLM 幻覺(jué)提供了一種通用的方法,無(wú)需人工監(jiān)督或特定領(lǐng)域的知識(shí)。這有助于用戶(hù)了解 LLM 的局限性,并推動(dòng)其在各個(gè)領(lǐng)域的應(yīng)用。

相關(guān)研究論文以“Detecting Hallucinations in Large Language Models Using Semantic Entropy”為題,已發(fā)表在權(quán)威科學(xué)期刊 Nature 上。

在一篇同時(shí)發(fā)表的“新聞與觀(guān)點(diǎn)”文章中,皇家墨爾本理工大學(xué)計(jì)算機(jī)技術(shù)學(xué)院院長(zhǎng)Karin Verspoor教授指出,該任務(wù)由一個(gè)LLM完成,并通過(guò)第三個(gè)LLM進(jìn)行評(píng)價(jià),等于在“以毒攻毒”。

但她也寫(xiě)道,“用一個(gè) LLM 評(píng)估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差。”不過(guò),作者指出他們的方法有望幫助用戶(hù)理解在哪些情況下使用LLM 的回答需要注意,也意味著可以提高LLM在更多應(yīng)用場(chǎng)景中的可信度。

如何量化 LLM 的幻覺(jué)程度?

我們先來(lái)了解一下,大模型的幻覺(jué)是如何產(chǎn)生的。

LLM的設(shè)計(jì)初衷是生成新內(nèi)容。當(dāng)你問(wèn)聊天機(jī)器人一些問(wèn)題時(shí),它的回答并不是全部從數(shù)據(jù)庫(kù)中查找現(xiàn)成的信息,也需要通過(guò)大量數(shù)字計(jì)算生成。

這些模型通過(guò)預(yù)測(cè)句子中的下一個(gè)詞來(lái)生成文本。模型內(nèi)部有成千上億個(gè)數(shù)字,就像一個(gè)巨大的電子表格,記錄了詞語(yǔ)之間的出現(xiàn)概率。模型訓(xùn)練過(guò)程中不斷調(diào)整這些數(shù)值,使得它的預(yù)測(cè)符合互聯(lián)網(wǎng)海量文本中的語(yǔ)言模式。

因此,大語(yǔ)言模型實(shí)際上是根據(jù)統(tǒng)計(jì)概率生成文本的“統(tǒng)計(jì)老虎機(jī)”,搖桿一動(dòng),一個(gè)詞便出現(xiàn)了。

現(xiàn)有的檢測(cè) LLM 幻覺(jué)的方法大多依賴(lài)于監(jiān)督學(xué)習(xí),需要大量的標(biāo)注數(shù)據(jù),且難以泛化到新的領(lǐng)域。

在這項(xiàng)研究中,研究團(tuán)隊(duì)使用了語(yǔ)義熵的方法,該方法無(wú)需標(biāo)注數(shù)據(jù),且在多個(gè)數(shù)據(jù)集和任務(wù)上表現(xiàn)出色。

語(yǔ)義熵(semantic entropy)是一種衡量語(yǔ)言模型生成的文本中潛在語(yǔ)義不確定性的方法,通過(guò)考慮詞語(yǔ)和句子在不同上下文中的意義變化來(lái)評(píng)估模型預(yù)測(cè)的可靠性。

該方法能檢測(cè)“編造”(confabulation)——這是“幻覺(jué)”的一個(gè)子類(lèi)別,特指不準(zhǔn)確和隨意的內(nèi)容,常出現(xiàn)在LLM缺乏某類(lèi)知識(shí)的情況下。這種方法考慮了語(yǔ)言的微妙差別,以及回答如何能以不同的方式表達(dá),從而擁有不同的含義。

圖片

圖|語(yǔ)義熵與虛構(gòu)內(nèi)容檢測(cè)簡(jiǎn)述

如上圖所示,傳統(tǒng)的基于熵的不確定性度量在精確答案的識(shí)別上存在局限,例如,它將“巴黎”、“這是巴黎”和“法國(guó)的首都巴黎”視為不同答案。然而,在涉及語(yǔ)言任務(wù)時(shí),這些答案雖表述不同但意義相同,這樣的處理方式顯然不適用。語(yǔ)義熵方法則在計(jì)算熵之前,先將具有相同意義的答案進(jìn)行聚類(lèi)。低語(yǔ)義熵意味著大語(yǔ)言模型對(duì)其內(nèi)容含義具有很高的確定性。

另外,語(yǔ)義熵方法還能有效檢測(cè)長(zhǎng)段落中的虛構(gòu)內(nèi)容。研究團(tuán)隊(duì)首先將生成的長(zhǎng)答案分解為若干小事實(shí)單元。隨后,針對(duì)每個(gè)小事實(shí),LLM 會(huì)生成一系列可能與之相關(guān)的問(wèn)題。然后,原LLM會(huì)為這些問(wèn)題提供M個(gè)潛在答案。接著,研究團(tuán)隊(duì)計(jì)算這些問(wèn)題答案的語(yǔ)義熵,包括原始的小事實(shí)本身。高平均語(yǔ)義熵表明與該小事實(shí)相關(guān)的問(wèn)題可能存在虛構(gòu)成分。在這里,由于即使用詞差異顯著,但生成的答案通常傳達(dá)相同意義,語(yǔ)義熵成功將事實(shí)1分類(lèi)為非虛構(gòu)內(nèi)容,而傳統(tǒng)的熵方法則可能忽略這一點(diǎn)。

研究團(tuán)隊(duì)主要在以下兩個(gè)方面對(duì)比了語(yǔ)義熵與其他檢測(cè)方式的差別。

1.檢測(cè)問(wèn)答和數(shù)學(xué)問(wèn)題中的虛構(gòu)內(nèi)容

圖片

圖|檢測(cè)句子長(zhǎng)度生成中的虛構(gòu)內(nèi)容。

從上圖中可以看出,語(yǔ)義熵優(yōu)于所有基線(xiàn)方法。在 AUROC 和 AURAC 兩個(gè)指標(biāo)上,語(yǔ)義熵均展現(xiàn)了更好的性能,這表明其能夠更準(zhǔn)確地預(yù)測(cè) LLM 錯(cuò)誤,并提高模型拒絕回答問(wèn)題時(shí)的準(zhǔn)確率。

2.檢測(cè)傳記中的虛構(gòu)內(nèi)容

圖片

圖|檢測(cè)段落長(zhǎng)度傳記中的 GPT-4 虛構(gòu)內(nèi)容。

如上圖所示,語(yǔ)義熵估計(jì)器的離散變體在 AUROC 和 AURAC 指標(biāo)(在 y 軸上得分)上均優(yōu)于基線(xiàn)方法。AUROC 和 AURAC 都明顯高于兩個(gè)基線(xiàn)。在回答超過(guò) 80% 的問(wèn)題時(shí),語(yǔ)義熵的準(zhǔn)確性更高。只有當(dāng)拒絕最有可能是虛構(gòu)內(nèi)容的前 20% 答案時(shí),P(True) 基線(xiàn)的剩余答案準(zhǔn)確性才好于語(yǔ)義熵。

不足與展望

研究團(tuán)隊(duì)提出的概率方法充分考慮了語(yǔ)義等價(jià)性,成功識(shí)別出一類(lèi)關(guān)鍵的幻覺(jué)現(xiàn)象——即由于 LLM 知識(shí)缺乏而產(chǎn)生的幻覺(jué)。這類(lèi)幻覺(jué)構(gòu)成了當(dāng)前眾多失敗案例的核心,且即便模型能力持續(xù)增強(qiáng),由于人類(lèi)無(wú)法全面監(jiān)督所有情境和案例,這類(lèi)問(wèn)題仍將持續(xù)存在。虛構(gòu)內(nèi)容在問(wèn)答領(lǐng)域中尤為突出,但同樣在其他領(lǐng)域也有所體現(xiàn)。

值得注意的是,該研究使用的語(yǔ)義熵方法無(wú)需依賴(lài)特定的領(lǐng)域知識(shí),預(yù)示著在抽象總結(jié)等更多應(yīng)用場(chǎng)景中也能取得類(lèi)似的進(jìn)展。此外,將該方法擴(kuò)展到其他輸入變體,如重述或反事實(shí)情景,不僅為交叉檢查提供了可能,還通過(guò)辯論的形式實(shí)現(xiàn)了可擴(kuò)展的監(jiān)督。這表明該方法具有廣泛的適用性和靈活性。語(yǔ)義熵在檢測(cè)錯(cuò)誤方面的成功,進(jìn)一步驗(yàn)證了LLM在“知道自己不知道什么”方面的潛力,實(shí)際上可能比先前研究所揭示的更為出色。

然而,語(yǔ)義熵方法主要針對(duì)由 LLM 知識(shí)不足導(dǎo)致的幻覺(jué),比如無(wú)中生有或張冠李戴,對(duì)于其他類(lèi)型的幻覺(jué),比如由訓(xùn)練數(shù)據(jù)錯(cuò)誤或模型設(shè)計(jì)缺陷導(dǎo)致的幻覺(jué),可能效果不佳。此外,語(yǔ)義聚類(lèi)過(guò)程依賴(lài)于自然語(yǔ)言推理工具,其準(zhǔn)確性也會(huì)影響語(yǔ)義熵的估計(jì)。

未來(lái),研究人員希望進(jìn)一步探索語(yǔ)義熵方法在更多領(lǐng)域的應(yīng)用,并與其他方法相結(jié)合,從而提高 LLM 的可靠性和可信度。例如,可以研究如何將語(yǔ)義熵方法與其他技術(shù),比如與對(duì)抗性訓(xùn)練和強(qiáng)化學(xué)習(xí)相結(jié)合,從而進(jìn)一步提高 LLM 的性能。此外,他們還將探索如何將語(yǔ)義熵方法與其他指標(biāo)相結(jié)合,從而更全面地評(píng)估 LLM 的可信度。

但需要我們意識(shí)到的是,只要 LLM 是基于概率的,其生成的內(nèi)容中就會(huì)有一定的隨機(jī)性。投擲100個(gè)骰子,你會(huì)得到一個(gè)模式,再投一次,你會(huì)得到另一個(gè)模式。即使這些骰子像 LLM 一樣被加權(quán)來(lái)更頻繁地生成某些模式,每次得到的結(jié)果仍然不會(huì)完全相同。即使每千次或每十萬(wàn)次中只有一次錯(cuò)誤,當(dāng)你考慮到這種技術(shù)每天被使用的次數(shù)時(shí),錯(cuò)誤的數(shù)量也會(huì)相當(dāng)多。這些模型越準(zhǔn)確,我們就越容易放松警惕。

對(duì)于大模型的幻覺(jué),你怎么看?

參考資料:

https://www.nature.com/articles/s41586-024-07421-0

https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/

評(píng)論
科普l(shuí)yjzgf
庶吉士級(jí)
語(yǔ)義熵作為一種新興的檢測(cè)工具,為理解和限制大型語(yǔ)言模型生成錯(cuò)誤信息提供了科學(xué)依據(jù),有望在人工智能領(lǐng)域推動(dòng)更準(zhǔn)確、可信賴(lài)的信息處理技術(shù)的發(fā)展。
2024-06-23
演繹無(wú)限精彩!
大學(xué)士級(jí)
科學(xué)家基于語(yǔ)義熵提出了一種檢驗(yàn)LLM回答真實(shí)性的巧妙策略,這將幫助使用者理解,在哪些情況下需要格外留意LLM的答案,而從提高 LLM 的可靠性和可信度。
2024-06-23
傳承解惑
大學(xué)士級(jí)
希望將來(lái)進(jìn)一步探索語(yǔ)義熵方法在更多領(lǐng)域的應(yīng)用,并與其他方法相結(jié)合,從而提高 LLM 的可靠性和可信度。
2024-06-23