9.11 和 9.9 哪個(gè)大?
這一連人類幼兒園兒童都能回答的問題,曾經(jīng)(至今)難倒了眾多大語言模型(LLM)。
然而,要想達(dá)到通用人工智能(AGI)的水平,LLM 不僅要完成“比大小”這種簡單的邏輯推理,還需要完成難度更高的推理,比如“對復(fù)雜規(guī)則的理解與執(zhí)行以及多步驟規(guī)劃”,這是 LLM 智能體(agent)和決策系統(tǒng)的核心能力。
因此,如何有效評估 LLM 作為基于規(guī)則的執(zhí)行者和規(guī)劃者角色,至關(guān)重要。但是,目前學(xué)界和業(yè)界少有這方面的研究。
來自清華大學(xué)和智譜的研究團(tuán)隊(duì)推出了一項(xiàng)新的基準(zhǔn)測試——LogicGame,旨在全面評估 LLM 在規(guī)則理解、執(zhí)行和規(guī)劃方面的能力。先看評測結(jié)果:
圖|LogicGame 的評測結(jié)果和樣例展示。上圖為各種模型在執(zhí)行和規(guī)劃類別中的表現(xiàn);下圖(左、右)分別為兩個(gè)執(zhí)行和規(guī)劃類別案例研究。
除了看到 o1-preview、o-mini 的遙遙領(lǐng)先,我們也看到超過一半的模型得分不到 10%,如上圖紅色區(qū)域所示。
這一評測結(jié)果揭示了一個(gè)不容忽視的事實(shí):大多數(shù) LLM 在基于規(guī)則的邏輯推理上都存在著明顯的缺陷。
相關(guān)研究論文以“LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
與傳統(tǒng)基準(zhǔn)測試不同,LogicGame 包含一系列多樣化的游戲,每個(gè)游戲都有一套初始狀態(tài)規(guī)則,這要求模型不僅能夠理解這些預(yù)定義的規(guī)則,還可以應(yīng)用它們來解決問題。而且,LogicGame 還同時(shí)考慮了最終結(jié)果和中間步驟,從而對模型性能進(jìn)行全面的評估。
研究結(jié)果顯示,通過設(shè)定不同難度的游戲場景,LogicGame 能夠精確地衡量模型在規(guī)則理解和多步驟執(zhí)行及規(guī)劃任務(wù)上的表現(xiàn)。
LogicGame:“四級”難度游戲場景
遵循規(guī)則與推理的結(jié)合是完成許多現(xiàn)實(shí)世界任務(wù)的關(guān)鍵。然而,現(xiàn)有基準(zhǔn)測試常常無法充分捕捉這一點(diǎn)。
為了填補(bǔ)這一空白,研究團(tuán)隊(duì)通過廣泛的研究和眾包開發(fā)了一套新穎的問題集。他們發(fā)現(xiàn)這些任務(wù)與某些游戲機(jī)制相似,因?yàn)楝F(xiàn)實(shí)世界的任務(wù)通常與游戲有著共同特征,比如需要遵循特定的規(guī)則,進(jìn)而進(jìn)行決策。因此,他們采用了游戲化的方法,從而能夠?qū)δP妥裱?guī)則的推理能力進(jìn)行細(xì)致的評估。
其中,LogicGame 的數(shù)據(jù)構(gòu)建,包含以下四個(gè)部分:
設(shè)計(jì)規(guī)則推理問題,靈感來自現(xiàn)實(shí)世界場景。由于現(xiàn)實(shí)世界任務(wù)往往具有游戲特征,例如需要遵循特定規(guī)則和做出決策,因此 LogicGame 采用了游戲化方法來評估模型的規(guī)則遵循和推理能力。
開發(fā)輸出約束,確保模型輸出符合標(biāo)準(zhǔn)格式。為了方便精確評估和簡化匹配步驟,模型響應(yīng)被要求遵循結(jié)構(gòu)化的 JSON 輸出格式。對于單步問題(Level 0),模型只需要輸出最終答案,評估僅基于答案的正確性。對于涉及多步驟或更復(fù)雜推理的問題(Level 1、2、3 和某些 Level 0 問題),既要評估答案,也要評估步驟。
實(shí)現(xiàn)不同難度級別,并包含示例問題。有四個(gè)難度級別,評估模型推理能力的范圍,從簡單的規(guī)則應(yīng)用到復(fù)雜的推理鏈。難度梯度由相關(guān)規(guī)則的復(fù)雜程度和得出解決方案所需的推理步驟數(shù)量決定。
為了確保公平性和更廣泛的適用性,LogicGame 包含了中文和英文版本基準(zhǔn)。
如下圖,每個(gè)模型都會收到一組特定于給定問題的規(guī)則作為輸入 prompt,以及一個(gè)相應(yīng)的問題和一個(gè) JSON 格式的輸出約束,包括答案和步驟。
圖|LogicGame 中分類和評測方法的說明。分類中插圖用紫色突出顯示涉及數(shù)學(xué)的類別。
LogicGame 的評測方法使用自動化方法,不僅要評估答案的正確性,還要評估得出答案的步驟的正確性,具體包括評估模型的答案準(zhǔn)確率(A-Acc)、步驟準(zhǔn)確率(P-Acc)和答案步驟準(zhǔn)確率(AP-Acc)。
每個(gè)問題答案的評分是通過比較模型的響應(yīng)和參考答案來確定的。同樣,根據(jù) JSON 格式約束的定義,每個(gè)問題步驟的評分也是通過評估模型步驟與參考步驟的一致程度來實(shí)現(xiàn)的。
A-Acc:該指標(biāo)用于評估所有給定問題答案的正確性,為每個(gè)答案提供二進(jìn)制評估(0/1),從而表明其是否正確。
P-Acc:該指標(biāo)評估步驟的正確性,根據(jù)所提供步驟與預(yù)期步驟之間的字符級相似度來衡量匹配百分比。在極少數(shù)情況下,如果 0 級問題是單步推理,其中沒有提供步驟可供評判,則在評分時(shí)步驟準(zhǔn)確性與答案準(zhǔn)確性視為一致同等對待。
AP-Acc:該綜合指標(biāo)評估答案和步驟的整體準(zhǔn)確性。其計(jì)算方法是使用邏輯 AND 運(yùn)算將答案準(zhǔn)確性和步驟準(zhǔn)確性結(jié)合起來,得出一個(gè)總分。
這一評測方法確保模型遵循規(guī)則進(jìn)行推理,并全面評估模型的推理能力。
表現(xiàn)如何?OpenAI o1 遙遙領(lǐng)先
如下圖,不論在中英文版本中,在執(zhí)行類別的最高難度 Level 3 下,o1-preview、o1-mini 在 14 個(gè)被評測模型中的得分遙遙領(lǐng)先,國內(nèi)模型的得分未能破 10,甚至出現(xiàn)了多個(gè) 0 分;在規(guī)劃類別的最高難度 Level 3 下,OpenAI o1 的領(lǐng)先優(yōu)勢亦是如此。
圖|14 個(gè)模型在 LogicGame 中文版本上的 AP-Acc% 指標(biāo)性能。
圖|14 個(gè)模型在 LogicGame 英文版本上的 AP-Acc% 指標(biāo)性能。
在執(zhí)行類別中,隨著 shot 數(shù)目的增加,模型的準(zhǔn)確性有了顯著提高。具體來說,更強(qiáng)大的模型(如 GPT-4o)在從 0-shot 轉(zhuǎn)換到 1-shot 和 2-shot 時(shí),AP-Acc 分?jǐn)?shù)會有更大的提升,表明它們能夠更好地利用額外的上下文信息來提高執(zhí)行精度。
圖|LogicGame 中文版本在執(zhí)行和規(guī)劃類別上的少樣本差異。
我們還觀察到,在執(zhí)行任務(wù)中,添加示例通常會提高模型在執(zhí)行任務(wù)中的表現(xiàn),尤其是在簡單任務(wù)(Level 0)中。
圖|LogicGame 中文版本在不同難度級別上的 shot 差異設(shè)置與上圖類似。
然而,1-shot 和 2-shot 設(shè)置對模型在不同難度級別上的影響有所不同。模型在 Level 0 中從示例中受益最大,但隨著難度級別的提高,示例的影響會逐漸減弱。
在規(guī)劃任務(wù)中,添加示例對模型在規(guī)劃任務(wù)中的表現(xiàn)影響更為復(fù)雜。一些模型在從 0-shot 轉(zhuǎn)換到 1-shot 或 2-shot 設(shè)置時(shí),表現(xiàn)會下降,這表明額外的上下文信息可能會引入噪聲,干擾模型對關(guān)鍵信息的理解??傮w而言,1-shot 對模型的影響最明顯,但隨著難度級別的增加,其影響會逐漸減弱,而 2-shot 則更加不穩(wěn)定,沒有明顯的規(guī)律。
在一項(xiàng)案例研究中,LLM 在黑白棋(Reversi)游戲中的表現(xiàn)幾乎“慘不忍睹”,除了 OpenAI o1,其他模型的得分幾乎為(接近于)0,這同樣表明 LLM 在處理復(fù)雜規(guī)則和進(jìn)行多步推理方面依然困難。
圖|表現(xiàn)最差的五個(gè)類別的 AP-Acc% 平均得分。熱圖中顯示了每個(gè)類別的 AP-ACC% 平均得分,模型在執(zhí)行和規(guī)劃場景中的表現(xiàn)都很差,特別是在“Reversi”中,許多模型的得分接近零。
圖|一個(gè)帶有模型輸出的 Reversi 游戲示例,包括答案和步驟。
研究團(tuán)隊(duì)對這一失敗表現(xiàn)進(jìn)行了分析,認(rèn)為有以下三點(diǎn)原因:
細(xì)節(jié)處理不足:例如,Claud 3.5 Sonnet 模型無法正確處理細(xì)節(jié)(如放置部分棋子或翻轉(zhuǎn)部分棋子),這表明它們對規(guī)則的理解不夠深入。
執(zhí)行/規(guī)劃規(guī)則理解不足:模型無法正確執(zhí)行或規(guī)劃游戲中的操作,這表明它們對游戲機(jī)制(如翻轉(zhuǎn)機(jī)制)的理解存在缺陷。
過度更改:llama-3-8b-chat 模型對棋盤狀態(tài)進(jìn)行了過度更改,這表明它們對游戲規(guī)則的理解存在明顯的偏差。
LLM 的推理能力仍有待提高
在這篇論文中,研究團(tuán)隊(duì)為評估 LLM 基于規(guī)則的推理能力,提出了一種新穎的基準(zhǔn) LogicGame,這一基準(zhǔn)包含多個(gè)難度級別,重點(diǎn)評估模型對規(guī)則的理解、基于這些規(guī)則的執(zhí)行以及規(guī)劃能力。
同時(shí),他們還開發(fā)了評估結(jié)果和推理過程的方法,確保模型忠實(shí)地遵循給定的規(guī)則,而不僅僅是猜測答案。
廣泛的實(shí)驗(yàn)表明,目前的大模型在基于規(guī)則的推理任務(wù)中仍然表現(xiàn)出明顯的不足。
對此,研究團(tuán)隊(duì)認(rèn)為,LLM 的推理能力仍有待提高,尤其是在理解復(fù)雜規(guī)則、進(jìn)行多步推理以及學(xué)習(xí)和應(yīng)用新規(guī)則方面。
為使 LLM 能夠更好地理解和執(zhí)行規(guī)則,它們的推理能力還需要進(jìn)一步改進(jìn),比如通過更有效的訓(xùn)練方法或引入新的推理機(jī)制。
此外,為了更全面地評估 LLM 的推理能力,需要開發(fā)更有效的評估方法。例如,通過引入更復(fù)雜的規(guī)則和更困難的推理任務(wù)。
一起來 battle!
想要證明你的大模型邏輯推理能力有多強(qiáng)?不妨參與 LogicGame 評測,與國內(nèi)外眾多大模型一起來 battle。
研究團(tuán)隊(duì)在 GitHub 上維護(hù)了一個(gè) Leaderboard,分別展示模型在 LogicGame 中英文版和中文版的表現(xiàn),其按照 AP-Acc% 進(jìn)行排名,主要評估指標(biāo)包括:
AP-Acc%(答案和步驟正確率)
A-Acc%(答案正確率)
P-Acc%(步驟正確率)
IFError%(指令遵循錯(cuò)誤率)
JSError%(Json格式輸出錯(cuò)誤率)
圖|14 個(gè)大模型在中文版 LogicGame 上的表現(xiàn)
圖|14 個(gè)大模型在英文版 LogicGame 上的表現(xiàn)
那么,如何獲取你的模型在 LogicGame 中英文版和中文版的表現(xiàn)呢?
研究團(tuán)隊(duì)在 GitHub 上存放了用于展示的 dev 數(shù)據(jù),并提供了 Codabench(一個(gè)專門用于模型評測的平臺,能夠提供高效、公正且統(tǒng)一的評估環(huán)境)提交時(shí)所需的輸入數(shù)據(jù)。你可以下載 zh_all 和 en_all 文件(分別代表中文版和英文版的數(shù)據(jù)全集),將其輸入你的模型以獲取模型回復(fù),并將此回復(fù)作為 Codabench 提交時(shí)的輸入數(shù)據(jù),即可獲得評測結(jié)果反饋。