世界衛(wèi)生組織(WHO)的人工智能健康資源助手 SARAH 列出了舊金山本不存在的診所的虛假名稱和地址。
Meta公司“短命”的科學(xué)聊天機(jī)器人 Galactica 憑空捏造學(xué)術(shù)論文,還生成關(guān)于太空熊歷史的維基文章。
今年2月,加拿大航空被命令遵守其客戶服務(wù)聊天機(jī)器人捏造的退款政策。
去年,一名律師因提交充滿虛假司法意見和法律引用的法庭文件而被罰款,這些文件都是由 ChatGPT 編造的。
……
如今,大語言模型(LLM)胡編亂造的例子已屢見不鮮,但問題在于,它們非常擅長一本正經(jīng)地胡說八道,編造的內(nèi)容大部分看起來都像是真的,讓人難辨真假。
在某些情況下,可以當(dāng)個樂子一笑而過,但是一旦涉及到法律、醫(yī)學(xué)等專業(yè)領(lǐng)域,就可能會產(chǎn)生非常嚴(yán)重的后果。
如何有效、快速地檢測大模型的幻覺(hallucination),已成為當(dāng)前國內(nèi)外科技公司和科研機(jī)構(gòu)競相關(guān)注的熱門研究方向。
如今,牛津大學(xué)團(tuán)隊提出的一種新方法便能夠幫助我們快速檢測大模型的幻覺——他們嘗試量化一個LLM產(chǎn)生幻覺的程度,從而判斷生成的內(nèi)容有多忠于提供的源內(nèi)容,從而提高其問答的準(zhǔn)確性。
研究團(tuán)隊表示,他們的方法能在LLM生成的個人簡介,以及關(guān)于瑣事、常識和生命科學(xué)這類話題的回答中識別出“編造”(confabulation)。
該研究意義重大,因為它為檢測 LLM 幻覺提供了一種通用的方法,無需人工監(jiān)督或特定領(lǐng)域的知識。這有助于用戶了解 LLM 的局限性,并推動其在各個領(lǐng)域的應(yīng)用。
相關(guān)研究論文以“Detecting Hallucinations in Large Language Models Using Semantic Entropy”為題,已發(fā)表在權(quán)威科學(xué)期刊 Nature 上。
在一篇同時發(fā)表的“新聞與觀點”文章中,皇家墨爾本理工大學(xué)計算機(jī)技術(shù)學(xué)院院長Karin Verspoor教授指出,該任務(wù)由一個LLM完成,并通過第三個LLM進(jìn)行評價,等于在“以毒攻毒”。
但她也寫道,“用一個 LLM 評估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差。”不過,作者指出他們的方法有望幫助用戶理解在哪些情況下使用LLM 的回答需要注意,也意味著可以提高LLM在更多應(yīng)用場景中的可信度。
如何量化 LLM 的幻覺程度?
我們先來了解一下,大模型的幻覺是如何產(chǎn)生的。
LLM的設(shè)計初衷是生成新內(nèi)容。當(dāng)你問聊天機(jī)器人一些問題時,它的回答并不是全部從數(shù)據(jù)庫中查找現(xiàn)成的信息,也需要通過大量數(shù)字計算生成。
這些模型通過預(yù)測句子中的下一個詞來生成文本。模型內(nèi)部有成千上億個數(shù)字,就像一個巨大的電子表格,記錄了詞語之間的出現(xiàn)概率。模型訓(xùn)練過程中不斷調(diào)整這些數(shù)值,使得它的預(yù)測符合互聯(lián)網(wǎng)海量文本中的語言模式。
因此,大語言模型實際上是根據(jù)統(tǒng)計概率生成文本的“統(tǒng)計老虎機(jī)”,搖桿一動,一個詞便出現(xiàn)了。
現(xiàn)有的檢測 LLM 幻覺的方法大多依賴于監(jiān)督學(xué)習(xí),需要大量的標(biāo)注數(shù)據(jù),且難以泛化到新的領(lǐng)域。
在這項研究中,研究團(tuán)隊使用了語義熵的方法,該方法無需標(biāo)注數(shù)據(jù),且在多個數(shù)據(jù)集和任務(wù)上表現(xiàn)出色。
語義熵(semantic entropy)是一種衡量語言模型生成的文本中潛在語義不確定性的方法,通過考慮詞語和句子在不同上下文中的意義變化來評估模型預(yù)測的可靠性。
該方法能檢測“編造”(confabulation)——這是“幻覺”的一個子類別,特指不準(zhǔn)確和隨意的內(nèi)容,常出現(xiàn)在LLM缺乏某類知識的情況下。這種方法考慮了語言的微妙差別,以及回答如何能以不同的方式表達(dá),從而擁有不同的含義。
圖|語義熵與虛構(gòu)內(nèi)容檢測簡述
如上圖所示,傳統(tǒng)的基于熵的不確定性度量在精確答案的識別上存在局限,例如,它將“巴黎”、“這是巴黎”和“法國的首都巴黎”視為不同答案。然而,在涉及語言任務(wù)時,這些答案雖表述不同但意義相同,這樣的處理方式顯然不適用。語義熵方法則在計算熵之前,先將具有相同意義的答案進(jìn)行聚類。低語義熵意味著大語言模型對其內(nèi)容含義具有很高的確定性。
另外,語義熵方法還能有效檢測長段落中的虛構(gòu)內(nèi)容。研究團(tuán)隊首先將生成的長答案分解為若干小事實單元。隨后,針對每個小事實,LLM 會生成一系列可能與之相關(guān)的問題。然后,原LLM會為這些問題提供M個潛在答案。接著,研究團(tuán)隊計算這些問題答案的語義熵,包括原始的小事實本身。高平均語義熵表明與該小事實相關(guān)的問題可能存在虛構(gòu)成分。在這里,由于即使用詞差異顯著,但生成的答案通常傳達(dá)相同意義,語義熵成功將事實1分類為非虛構(gòu)內(nèi)容,而傳統(tǒng)的熵方法則可能忽略這一點。
研究團(tuán)隊主要在以下兩個方面對比了語義熵與其他檢測方式的差別。
1.檢測問答和數(shù)學(xué)問題中的虛構(gòu)內(nèi)容
圖|檢測句子長度生成中的虛構(gòu)內(nèi)容。
從上圖中可以看出,語義熵優(yōu)于所有基線方法。在 AUROC 和 AURAC 兩個指標(biāo)上,語義熵均展現(xiàn)了更好的性能,這表明其能夠更準(zhǔn)確地預(yù)測 LLM 錯誤,并提高模型拒絕回答問題時的準(zhǔn)確率。
2.檢測傳記中的虛構(gòu)內(nèi)容
圖|檢測段落長度傳記中的 GPT-4 虛構(gòu)內(nèi)容。
如上圖所示,語義熵估計器的離散變體在 AUROC 和 AURAC 指標(biāo)(在 y 軸上得分)上均優(yōu)于基線方法。AUROC 和 AURAC 都明顯高于兩個基線。在回答超過 80% 的問題時,語義熵的準(zhǔn)確性更高。只有當(dāng)拒絕最有可能是虛構(gòu)內(nèi)容的前 20% 答案時,P(True) 基線的剩余答案準(zhǔn)確性才好于語義熵。
不足與展望
研究團(tuán)隊提出的概率方法充分考慮了語義等價性,成功識別出一類關(guān)鍵的幻覺現(xiàn)象——即由于 LLM 知識缺乏而產(chǎn)生的幻覺。這類幻覺構(gòu)成了當(dāng)前眾多失敗案例的核心,且即便模型能力持續(xù)增強(qiáng),由于人類無法全面監(jiān)督所有情境和案例,這類問題仍將持續(xù)存在。虛構(gòu)內(nèi)容在問答領(lǐng)域中尤為突出,但同樣在其他領(lǐng)域也有所體現(xiàn)。
值得注意的是,該研究使用的語義熵方法無需依賴特定的領(lǐng)域知識,預(yù)示著在抽象總結(jié)等更多應(yīng)用場景中也能取得類似的進(jìn)展。此外,將該方法擴(kuò)展到其他輸入變體,如重述或反事實情景,不僅為交叉檢查提供了可能,還通過辯論的形式實現(xiàn)了可擴(kuò)展的監(jiān)督。這表明該方法具有廣泛的適用性和靈活性。語義熵在檢測錯誤方面的成功,進(jìn)一步驗證了LLM在“知道自己不知道什么”方面的潛力,實際上可能比先前研究所揭示的更為出色。
然而,語義熵方法主要針對由 LLM 知識不足導(dǎo)致的幻覺,比如無中生有或張冠李戴,對于其他類型的幻覺,比如由訓(xùn)練數(shù)據(jù)錯誤或模型設(shè)計缺陷導(dǎo)致的幻覺,可能效果不佳。此外,語義聚類過程依賴于自然語言推理工具,其準(zhǔn)確性也會影響語義熵的估計。
未來,研究人員希望進(jìn)一步探索語義熵方法在更多領(lǐng)域的應(yīng)用,并與其他方法相結(jié)合,從而提高 LLM 的可靠性和可信度。例如,可以研究如何將語義熵方法與其他技術(shù),比如與對抗性訓(xùn)練和強(qiáng)化學(xué)習(xí)相結(jié)合,從而進(jìn)一步提高 LLM 的性能。此外,他們還將探索如何將語義熵方法與其他指標(biāo)相結(jié)合,從而更全面地評估 LLM 的可信度。
但需要我們意識到的是,只要 LLM 是基于概率的,其生成的內(nèi)容中就會有一定的隨機(jī)性。投擲100個骰子,你會得到一個模式,再投一次,你會得到另一個模式。即使這些骰子像 LLM 一樣被加權(quán)來更頻繁地生成某些模式,每次得到的結(jié)果仍然不會完全相同。即使每千次或每十萬次中只有一次錯誤,當(dāng)你考慮到這種技術(shù)每天被使用的次數(shù)時,錯誤的數(shù)量也會相當(dāng)多。這些模型越準(zhǔn)確,我們就越容易放松警惕。
對于大模型的幻覺,你怎么看?
參考資料:
https://www.nature.com/articles/s41586-024-07421-0
https://www.technologyreview.com/2023/12/19/1084505/generative-ai-artificial-intelligence-bias-jobs-copyright-misinformation/