奇米影视在线四色888,艾斯爱慕M社区免费踩踏视频

人工智能（AI）模型的參數(shù)規(guī)模越大，生成的答案就越準確？就更加可信？

還真不一定！

日前，一項發(fā)表在權威科學期刊 Nature 上的研究表明：相比于小參數(shù)模型，大參數(shù)模型不會承認它們的“無知”，而更傾向于生成錯誤答案。

值得關注的是，人們并不善于發(fā)現(xiàn)這些錯誤。

這項研究來自瓦倫西亞理工大學團隊及其合作者，他們在研究了 GPT、LLaMA 和 BLOOM 系列大語言模型（LLM）之后發(fā)現(xiàn)——

盡管正如預期的那樣，由于一些微調方法（如 RLFH），參數(shù)規(guī)模更大的 LLM 生成的答案更準確，尤其是在復雜任務上，但整體可靠性卻較低。

在所有不準確的回答中，錯誤回答的比例有所上升，甚至在一些簡單任務上出現(xiàn)更多低級錯誤。例如，GPT-4 在處理簡單的加法和字謎時的錯誤率竟比一些小模型高出 15%。這是因為模型不太可能回避回答問題——比如承認它不知道或者轉移話題。

以上結果表明，大參數(shù)模型在簡單任務上可能會出現(xiàn)過度擬合或錯誤估計的風險，反而更不可靠。

模型擴展帶來“能力反差”

在這項工作中，研究人員從人類用戶與 LLM 互動的角度，探討了難度一致性、任務回避和提示穩(wěn)定性三個核心交織元素對 LLM 可靠性的影響。

該研究的通訊作者 José Hernández Orallo 教授表示：“語言模型的可靠性與人類對任務難度的感知不匹配。模型能夠解決博士級的數(shù)學問題，但同時卻可能在簡單的加法上出錯?！?/p>

研究團隊對比了 GPT、LLaMA、BLOOM 三大模型系列在不同任務中的表現(xiàn)，尤其是在數(shù)字計算、文字游戲、地理知識、基礎與高級科學問題和信息轉化等任務。通過對這些任務的正確率、錯誤率和回避行為的分析，揭示了模型擴展帶來的能力反差現(xiàn)象。

1.難度悖論“越簡單，錯得越多？”

一個令人意外的關鍵發(fā)現(xiàn)是，模型在面對復雜任務時表現(xiàn)顯著提升，但在簡單任務上的錯誤率卻有明顯上升。這種現(xiàn)象稱為“難度不一致（Difficulty Inconsistency）”，即擴展后的模型在復雜任務上逐步提升了正確率，但在簡單任務上卻容易出錯。

以加法任務為例，雖然模型能夠解決復雜的多位數(shù)加法，但在簡單的兩位數(shù)加法上卻頻繁出錯。例如，所有 LLaMA 模型在最簡單任務上的正確率未超過 60%，而在一些較難的任務中，則表現(xiàn)得相對出色。

這一現(xiàn)象在 GPT 模型中也尤為突出，特別在處理諸如簡單加法和字謎任務時，優(yōu)化后的模型反而容易給出錯誤答案。研究團隊指出，這一現(xiàn)象表明當前模型的擴展可能過于集中于復雜任務，而忽視了簡單任務。

圖 | GPT、LLaMA 和 BLOOM 模型的關鍵指標

這一結果顛覆了人們對 LLM 的傳統(tǒng)認知，表明擴展模型并不總是能帶來全面的提升，對其在實際應用中的可靠性提出了質疑。

2.錯誤率與回避行為——“自信過頭”

除了難度不一致現(xiàn)象，研究還揭示了優(yōu)化后模型中回避行為與錯誤率之間的微妙關系。

回避行為是指模型在無法正確回答問題時，選擇不作答或給出不符合要求的回應。

在模型未優(yōu)化時，回避行為比較常見，即當模型不確定答案時，往往會選擇“不作答”或提供模糊的回應。然而，在經(jīng)過擴展和優(yōu)化后，模型則大幅減少了回避行為，轉而給出了更多表面上“合理”但實際上錯誤的答案。

這意味著，雖然一些優(yōu)化方法使得模型更“自信”，減少了回避行為，但錯誤率卻隨之增加。這一現(xiàn)象在 GPT-4 和 GPT-3.5-turbo 等模型中尤其明顯，規(guī)模擴展并未帶來預期的穩(wěn)定性。對比 LLaMA 和 BLOOM 模型，這一趨勢雖然不那么明顯，但同樣存在。

圖 | GPT 和 LLaMA 模型的性能隨難度增加而提高

研究團隊稱，這種現(xiàn)象與用戶在模型上產(chǎn)生的過度信任密切相關，尤其是在用戶面對看似簡單的任務時。

該論文的第一作者 Lexin Zhou 表示：“這可能會導致最初過于依賴模型的用戶感到失望。此外，與人類不同，避免提供答案的傾向不會隨著困難而增加。例如，人類傾向于避免對超出其能力的問題給出反饋。這讓用戶有責任在與模型的交互過程中發(fā)現(xiàn)錯誤。”

3.提示詞帶來的是穩(wěn)定性，還是陷阱？

該研究分析了模型對提示詞的敏感性，特別是某些提示是否存在“安全區(qū)”。

結果表明，隨著模型規(guī)模的增加，模型對不同自然語言表述的敏感度有所提高，能更好地應對措辭上的微調。然而，即使經(jīng)過擴展和優(yōu)化，模型在不同難度級別的任務上仍然存在不一致的表現(xiàn)。而且，在不同表述下，模型的回答準確率存在波動。

研究發(fā)現(xiàn)，人們對難度的認知存在不一致。論文作者之一 Yael Moros Daval 說道：“模型是否在我們預期的地方失敗了？我們發(fā)現(xiàn)，模型在人類認為困難的任務上往往不太準確，但即使在簡單任務上，它們也不是 100% 準確。這意味著不存在可以信任模型完美運行的‘安全區(qū)’?！?/p>

具體而言，未經(jīng)優(yōu)化的 GPT 和 LLaMA 模型對提示詞的選擇表現(xiàn)出極高的敏感性，尤其是在簡單任務中。如果提示詞選擇得當，模型的表現(xiàn)會有所提升；而優(yōu)化后的模型在提示詞敏感性上有所改善，表現(xiàn)更加穩(wěn)定，但也存在一定的變異性。

經(jīng)過優(yōu)化的模型相比原始模型（raw models）在提示變化上更為穩(wěn)定，且正確率更高，但在與人類判斷難度的一致性和謹慎度方面表現(xiàn)較差。

圖 | LLaMA、BLOOM 系列以及非結構 GPT 模型的尺度分析

研究發(fā)現(xiàn)，當用戶的難度預期與模型的輸出結果不一致時，尤其是對于簡單任務，模型和用戶的錯誤監(jiān)督都會增加，且人類監(jiān)督無法彌補這些問題。

盡管人類對任務難度的預期可以作為模型正確性的預測指標，但模型在簡單任務上仍存在錯誤；模型規(guī)模的擴展和優(yōu)化不僅減少了回避行為，還導致錯誤率的增加，并且回避行為與任務難度無關；即便對模型進行了擴展和優(yōu)化，提示工程的需求仍然存在，并且提示性能的提升并不隨難度單調增加。

這項研究不僅揭示了大模型擴展的關鍵盲區(qū)，更為未來的 AI 發(fā)展提供了新的方向——在模型規(guī)模與任務難度之間找到最佳平衡，或許才是智能進化的真正關鍵。

論文作者之一 Wout Schellaert 表示：“最終，從人類的角度來看，LLM 變得越來越不可靠，而用戶監(jiān)督來糾正錯誤并不是解決方案，因為我們往往過于依賴模型，無法識別不同難度級別的錯誤結果。因此，通用人工智能（AGI）的設計和開發(fā)需要進行根本性的改變，特別是對于高風險應用，預測語言模型的性能并檢測其錯誤至關重要?！?/p>

不足與展望

盡管該研究在揭示 LLM 的提示敏感性、擴展與優(yōu)化對性能的影響等方面取得了重要成果，但仍存在一些局限性。

首先，這項研究中的參與者大多是非專家，這在解釋校準難度值時需要謹慎。對于一些基準數(shù)據(jù)集，非專家可能無法解決大量問題，而研究的目的是為了捕捉普通人群的預期難度，以便在所有數(shù)據(jù)集中進行可比性分析。

而且，這項研究中使用的“自然”提示是從多樣化的來源中收集的，但未能獲取這些提示在真實場景中出現(xiàn)的頻率數(shù)據(jù)。

同時，這項研究僅覆蓋了部分模型，尤其是那些依賴外部工具或復雜推理技術的模型沒有被納入，這限制了對 LLM 在更復雜場景下動態(tài)表現(xiàn)的理解，無法全面評估不同模型的潛力與問題。

此外，研究僅覆蓋了部分模型家族，尤其是那些依賴外部工具或復雜推理技術的模型沒有被納入。這限制了對 LLM 在更復雜場景下動態(tài)表現(xiàn)的理解，無法全面評估不同模型家族的潛力與問題。

研究人員表示，將進一步擴大關于人類難度預期和輸出監(jiān)督的數(shù)據(jù)集，以便將這些更高質量的數(shù)據(jù)引入模型訓練中，并通過 AI 來訓練監(jiān)督者，從而改進模型的優(yōu)化過程。

在醫(yī)療等關鍵領域，模型可以通過設計拒答選項或與外部 AI 監(jiān)督者結合的方式，提高其回避能力，最終使 LLM 展現(xiàn)出更符合人類預期的可靠性和一致性。

作者：田小婷

顛覆認知：AI大模型不可靠，越大越不可靠？！

顛覆認知：AI大模型不可靠，越大越不可靠？！