當(dāng)前,大型語(yǔ)言模型(LLMs)或許是通用人工智能(AGI)得以實(shí)現(xiàn)的“最優(yōu)解”。
然而,盡管大模型在流利性和知識(shí)廣度方面貌似已接近人類(lèi)水平,但評(píng)估它們的挑戰(zhàn)日益突顯。隨著大模型的迅猛發(fā)展,一些傳統(tǒng)基準(zhǔn)已經(jīng)失效。因此,新的測(cè)評(píng)基準(zhǔn)亟需制定。
近日,來(lái)自 Meta、HuggingFace 和 AutoGPT 的研究團(tuán)隊(duì)共同提出了一個(gè)用于測(cè)試通用 AI 助手的基準(zhǔn)——GAIA,該基準(zhǔn)提出了現(xiàn)實(shí)世界中需要一系列基本能力的問(wèn)題,如推理、多模態(tài)處理、網(wǎng)絡(luò)瀏覽和通用工具使用熟練技能。
研究團(tuán)隊(duì)表示,這些問(wèn)題在概念上對(duì)人類(lèi)來(lái)說(shuō)非常簡(jiǎn)單,但對(duì)大多數(shù)大模型來(lái)說(shuō),卻很有挑戰(zhàn)性:一個(gè)直觀的數(shù)據(jù),人類(lèi)回答這些問(wèn)題的成功率為 92%,而即使是帶有插件的 GPT-4 僅有 15% 的成功率。這與近年來(lái)大模型在法律或化學(xué)等需要專(zhuān)業(yè)技能的任務(wù)中表現(xiàn)優(yōu)于人類(lèi)的趨勢(shì)形成了鮮明對(duì)比。
相關(guān)研究論文以“GAIA:A Benchmark for General AI Assistants”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
值得注意的是,GAIA 的理念偏離了當(dāng)前 AI 基準(zhǔn)的趨勢(shì),即瞄準(zhǔn)對(duì)人類(lèi)來(lái)說(shuō)越來(lái)越難的任務(wù)。研究團(tuán)隊(duì)認(rèn)為,AGI 的出現(xiàn)取決于系統(tǒng)能否在此類(lèi)問(wèn)題上表現(xiàn)出與普通人類(lèi)似的魯棒性。
通用AI助手基準(zhǔn):與真實(shí)世界互動(dòng)
隨著大模型能力的提升,現(xiàn)有的評(píng)估基準(zhǔn)變得越來(lái)越難以滿(mǎn)足新模型的挑戰(zhàn),傳統(tǒng)的基準(zhǔn)測(cè)試很快就會(huì)被這些新模型超越。
在嘗試將大模型變成通用助手的過(guò)程中,目前的評(píng)估方法相對(duì)滯后?,F(xiàn)有的評(píng)估主要依賴(lài)于封閉系統(tǒng)、特定 API 調(diào)用或者重新使用現(xiàn)有的評(píng)估數(shù)據(jù)集。然而,這些方法通常在封閉環(huán)境中進(jìn)行,可能評(píng)估的是助手學(xué)習(xí)使用特定 API 的程度,而不是在真實(shí)世界互動(dòng)中更通用的能力。
相比之下,GAIA 采用了與真實(shí)世界的互動(dòng)作為評(píng)測(cè)基準(zhǔn),并不限定可能的 API。還有其他一些方法也在探索通用助手的評(píng)估,但它們與 GAIA 的核心區(qū)別在于它們更關(guān)注當(dāng)前模型的能力,而不是未來(lái)的進(jìn)展。
據(jù)論文描述,GAIA 是一個(gè)測(cè)試 AI 系統(tǒng)通用助手問(wèn)題的標(biāo)準(zhǔn),旨在避免 LLMs 評(píng)估中的各種問(wèn)題。GAIA 包含由人類(lèi)設(shè)計(jì)和標(biāo)注的 466 個(gè)問(wèn)題。這些問(wèn)題主要是文本形式的,有時(shí)還包含一些文件,比如圖像或電子表格。問(wèn)題涵蓋了各種通用助手應(yīng)用場(chǎng)景,包括日常個(gè)人任務(wù)、科學(xué)問(wèn)題和一般知識(shí)。問(wèn)題設(shè)計(jì)成只有一個(gè)簡(jiǎn)短而正確的答案,因此很容易驗(yàn)證。使用 GAIA 只需要向 AI 助手提示這些問(wèn)題,并附帶相關(guān)的證據(jù)(如果有的話)。
另外,使用 GAIA 評(píng)估 LLMs 只需要具備向模型提問(wèn)的能力,也就是說(shuō),需要能夠訪問(wèn) API。研究人員在向模型提問(wèn)之前使用了一個(gè)前綴提示。為了方便提取答案,他們還在前綴提示中規(guī)定了一種格式。
隨后,他們對(duì) GPT4 進(jìn)行了評(píng)估,包括有插件和沒(méi)有插件的情況,還評(píng)估了以 GPT4 為后端的AutoGPT。目前,GPT4 需要手動(dòng)選擇插件,而 AutoGPT 能夠自動(dòng)進(jìn)行這個(gè)選擇。
結(jié)果表明,GAIA 允許清晰地對(duì)能力強(qiáng)的助手進(jìn)行排名,同時(shí)在未來(lái)的幾個(gè)月甚至幾年中仍然有很大的改進(jìn)空間。
從圖中可以看出,人類(lèi)的網(wǎng)絡(luò)搜索在 Level 1 方面表現(xiàn)良好,但在更復(fù)雜的查詢(xún)上效果不佳,而且速度稍慢。與沒(méi)有插件的 GPT-4 相比,使用插件的 GPT-4 在提高答案準(zhǔn)確性和執(zhí)行計(jì)劃方面表現(xiàn)更好。AutoGPT-4 自動(dòng)使用工具,但在 Level 2 和甚至 Level 1 方面的表現(xiàn)令人失望,可能是由于其依賴(lài) GPT-4 API 的方式。總體而言,與使用插件的 GPT-4 合作的人類(lèi)似乎在分?jǐn)?shù)和時(shí)間之間找到了最佳的平衡。
評(píng)估 AI 助手潛力的第一步
GAIA 的出現(xiàn)讓我們重新思考當(dāng)前和未來(lái) AI 系統(tǒng)評(píng)估的范式。
封閉在 API 后面的模型可能會(huì)隨著時(shí)間的推移而改變,這意味著在不同時(shí)間點(diǎn)進(jìn)行的評(píng)估可能無(wú)法復(fù)制或重現(xiàn)。另外,問(wèn)題可能會(huì)更加復(fù)雜,因?yàn)橄?ChatGPT 插件這樣的工具和它們的功能會(huì)定期更新,而不是通過(guò) ChatGPT 的 API 進(jìn)行訪問(wèn)。
由于研究人員在評(píng)估模型性能時(shí)通常依賴(lài)于真實(shí)世界的基準(zhǔn),而這些基準(zhǔn)可能會(huì)隨著時(shí)間的推移而改變,所以實(shí)現(xiàn)可重現(xiàn)性可能會(huì)變得更加困難。然而,GAIA 對(duì)于生成隨機(jī)性的處理是魯棒的,因?yàn)樗魂P(guān)注最終的答案,即只接受一個(gè)正確的響應(yīng)進(jìn)行評(píng)估。
此外,相較于規(guī)模更大但多項(xiàng)選擇問(wèn)題的數(shù)據(jù)集,GAIA 注重問(wèn)題質(zhì)量而非數(shù)量。GAIA 的持續(xù)發(fā)展有望成為更全面評(píng)估 AI 系統(tǒng)泛化能力和穩(wěn)健性的關(guān)鍵組成部分。
GAIA 任務(wù)可能涉及調(diào)用各種模塊來(lái)完成,比如圖像分類(lèi)器可能返回錯(cuò)誤的標(biāo)簽。有些人可能會(huì)覺(jué)得這樣的評(píng)估有些含糊,因?yàn)?GAIA 看待系統(tǒng)為一個(gè)整體,而不是把錯(cuò)誤歸因于系統(tǒng)的子部分,比如網(wǎng)絡(luò)瀏覽或視覺(jué)模塊。然而,將 LLMs 與其他工具緊密結(jié)合以完成所有任務(wù)可能不是可持續(xù)的方法。未來(lái)的模型可能會(huì)在語(yǔ)言模型和其他能力之間更加集成,如視覺(jué)語(yǔ)言模型。
GAIA 的目標(biāo)是評(píng)估整個(gè) AI 系統(tǒng),而不僅僅是特定的架構(gòu)標(biāo)準(zhǔn)。更廣泛地說(shuō),對(duì)于復(fù)雜生成的自動(dòng)、事實(shí)和可解釋的評(píng)估一直是生成式 AI 中的一個(gè)長(zhǎng)期難題。
目前的評(píng)估方法可能存在一些限制,未來(lái)可能需要更復(fù)雜的方法,比如結(jié)合多模態(tài)系統(tǒng),通過(guò)對(duì)圖像進(jìn)行復(fù)雜的序列修改,并在自然語(yǔ)言中提出明確問(wèn)題的方式來(lái)改進(jìn)生成模型的評(píng)估。
盡管深度學(xué)習(xí)在各領(lǐng)域取得了進(jìn)展,但全自動(dòng)化目前仍面臨無(wú)法預(yù)測(cè)的失敗,如自動(dòng)駕駛汽車(chē)的挑戰(zhàn)。解決 GAIA 問(wèn)題需要全自動(dòng)化,但這可能導(dǎo)致社會(huì)經(jīng)濟(jì)格局的改變,存在技術(shù)所有者主導(dǎo)價(jià)值捕獲的風(fēng)險(xiǎn)。
另外,GAIA 也存在一些局限。首先,GAIA 無(wú)法評(píng)估不同路徑通向正確答案的情況。論文作者建議未來(lái)考慮人類(lèi)和模型評(píng)估,以彌補(bǔ)這一缺陷。
此外,由于 OpenAI 的 API 未提供詳細(xì)工具調(diào)用日志,當(dāng)前只評(píng)估了具有工具訪問(wèn)權(quán)限的最強(qiáng)大的語(yǔ)言模型。研究團(tuán)隊(duì)希望在未來(lái)能夠在開(kāi)源領(lǐng)域添加其他具備足夠工具使用能力和日志記錄的模型。
為了創(chuàng)建現(xiàn)實(shí)且易于使用的基準(zhǔn),需要兩輪注釋?zhuān)谝惠営勺⑨屨咴O(shè)計(jì)明確問(wèn)題,第二輪由兩位獨(dú)立注釋者回答問(wèn)題并排除歧義,盡管這過(guò)程徹底,仍可能存在歧義。
最后,GAIA 的一個(gè)重大限制在于它缺乏語(yǔ)言多樣性:所有問(wèn)題只能用“標(biāo)準(zhǔn)”英語(yǔ)提出,而且許多問(wèn)題主要依賴(lài)于英語(yǔ)網(wǎng)頁(yè)。
因此,GAIA 只是評(píng)估通用 AI 助手潛力的第一步,不應(yīng)視為它們成功的絕對(duì)證明。
參考鏈接:
https://arxiv.org/abs/2311.12983
作者:閆一米
編輯:學(xué)術(shù)君