向日葵app下载安装草莓,国内9l视频自拍

當(dāng)前，大型語(yǔ)言模型（LLMs）或許是通用人工智能（AGI）得以實(shí)現(xiàn)的“最優(yōu)解”。

然而，盡管大模型在流利性和知識(shí)廣度方面貌似已接近人類(lèi)水平，但評(píng)估它們的挑戰(zhàn)日益突顯。隨著大模型的迅猛發(fā)展，一些傳統(tǒng)基準(zhǔn)已經(jīng)失效。因此，新的測(cè)評(píng)基準(zhǔn)亟需制定。

近日，來(lái)自 Meta、HuggingFace 和 AutoGPT 的研究團(tuán)隊(duì)共同提出了一個(gè)用于測(cè)試通用 AI 助手的基準(zhǔn)——GAIA，該基準(zhǔn)提出了現(xiàn)實(shí)世界中需要一系列基本能力的問(wèn)題，如推理、多模態(tài)處理、網(wǎng)絡(luò)瀏覽和通用工具使用熟練技能。

研究團(tuán)隊(duì)表示，這些問(wèn)題在概念上對(duì)人類(lèi)來(lái)說(shuō)非常簡(jiǎn)單，但對(duì)大多數(shù)大模型來(lái)說(shuō)，卻很有挑戰(zhàn)性：一個(gè)直觀的數(shù)據(jù)，人類(lèi)回答這些問(wèn)題的成功率為 92％，而即使是帶有插件的 GPT-4 僅有 15％的成功率。這與近年來(lái)大模型在法律或化學(xué)等需要專(zhuān)業(yè)技能的任務(wù)中表現(xiàn)優(yōu)于人類(lèi)的趨勢(shì)形成了鮮明對(duì)比。

相關(guān)研究論文以“GAIA:A Benchmark for General AI Assistants”為題，已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。

值得注意的是，GAIA 的理念偏離了當(dāng)前 AI 基準(zhǔn)的趨勢(shì)，即瞄準(zhǔn)對(duì)人類(lèi)來(lái)說(shuō)越來(lái)越難的任務(wù)。研究團(tuán)隊(duì)認(rèn)為，AGI 的出現(xiàn)取決于系統(tǒng)能否在此類(lèi)問(wèn)題上表現(xiàn)出與普通人類(lèi)似的魯棒性。

通用AI助手基準(zhǔn)：與真實(shí)世界互動(dòng)

隨著大模型能力的提升，現(xiàn)有的評(píng)估基準(zhǔn)變得越來(lái)越難以滿(mǎn)足新模型的挑戰(zhàn)，傳統(tǒng)的基準(zhǔn)測(cè)試很快就會(huì)被這些新模型超越。

在嘗試將大模型變成通用助手的過(guò)程中，目前的評(píng)估方法相對(duì)滯后?，F(xiàn)有的評(píng)估主要依賴(lài)于封閉系統(tǒng)、特定 API 調(diào)用或者重新使用現(xiàn)有的評(píng)估數(shù)據(jù)集。然而，這些方法通常在封閉環(huán)境中進(jìn)行，可能評(píng)估的是助手學(xué)習(xí)使用特定 API 的程度，而不是在真實(shí)世界互動(dòng)中更通用的能力。

相比之下，GAIA 采用了與真實(shí)世界的互動(dòng)作為評(píng)測(cè)基準(zhǔn)，并不限定可能的 API。還有其他一些方法也在探索通用助手的評(píng)估，但它們與 GAIA 的核心區(qū)別在于它們更關(guān)注當(dāng)前模型的能力，而不是未來(lái)的進(jìn)展。

據(jù)論文描述，GAIA 是一個(gè)測(cè)試 AI 系統(tǒng)通用助手問(wèn)題的標(biāo)準(zhǔn)，旨在避免 LLMs 評(píng)估中的各種問(wèn)題。GAIA 包含由人類(lèi)設(shè)計(jì)和標(biāo)注的 466 個(gè)問(wèn)題。這些問(wèn)題主要是文本形式的，有時(shí)還包含一些文件，比如圖像或電子表格。問(wèn)題涵蓋了各種通用助手應(yīng)用場(chǎng)景，包括日常個(gè)人任務(wù)、科學(xué)問(wèn)題和一般知識(shí)。問(wèn)題設(shè)計(jì)成只有一個(gè)簡(jiǎn)短而正確的答案，因此很容易驗(yàn)證。使用 GAIA 只需要向 AI 助手提示這些問(wèn)題，并附帶相關(guān)的證據(jù)（如果有的話）。

另外，使用 GAIA 評(píng)估 LLMs 只需要具備向模型提問(wèn)的能力，也就是說(shuō)，需要能夠訪問(wèn) API。研究人員在向模型提問(wèn)之前使用了一個(gè)前綴提示。為了方便提取答案，他們還在前綴提示中規(guī)定了一種格式。

隨后，他們對(duì) GPT4 進(jìn)行了評(píng)估，包括有插件和沒(méi)有插件的情況，還評(píng)估了以 GPT4 為后端的AutoGPT。目前，GPT4 需要手動(dòng)選擇插件，而 AutoGPT 能夠自動(dòng)進(jìn)行這個(gè)選擇。

結(jié)果表明，GAIA 允許清晰地對(duì)能力強(qiáng)的助手進(jìn)行排名，同時(shí)在未來(lái)的幾個(gè)月甚至幾年中仍然有很大的改進(jìn)空間。

從圖中可以看出，人類(lèi)的網(wǎng)絡(luò)搜索在 Level 1 方面表現(xiàn)良好，但在更復(fù)雜的查詢(xún)上效果不佳，而且速度稍慢。與沒(méi)有插件的 GPT-4 相比，使用插件的 GPT-4 在提高答案準(zhǔn)確性和執(zhí)行計(jì)劃方面表現(xiàn)更好。AutoGPT-4 自動(dòng)使用工具，但在 Level 2 和甚至 Level 1 方面的表現(xiàn)令人失望，可能是由于其依賴(lài) GPT-4 API 的方式。總體而言，與使用插件的 GPT-4 合作的人類(lèi)似乎在分?jǐn)?shù)和時(shí)間之間找到了最佳的平衡。

評(píng)估 AI 助手潛力的第一步

GAIA 的出現(xiàn)讓我們重新思考當(dāng)前和未來(lái) AI 系統(tǒng)評(píng)估的范式。

封閉在 API 后面的模型可能會(huì)隨著時(shí)間的推移而改變，這意味著在不同時(shí)間點(diǎn)進(jìn)行的評(píng)估可能無(wú)法復(fù)制或重現(xiàn)。另外，問(wèn)題可能會(huì)更加復(fù)雜，因?yàn)橄?ChatGPT 插件這樣的工具和它們的功能會(huì)定期更新，而不是通過(guò) ChatGPT 的 API 進(jìn)行訪問(wèn)。

由于研究人員在評(píng)估模型性能時(shí)通常依賴(lài)于真實(shí)世界的基準(zhǔn)，而這些基準(zhǔn)可能會(huì)隨著時(shí)間的推移而改變，所以實(shí)現(xiàn)可重現(xiàn)性可能會(huì)變得更加困難。然而，GAIA 對(duì)于生成隨機(jī)性的處理是魯棒的，因?yàn)樗魂P(guān)注最終的答案，即只接受一個(gè)正確的響應(yīng)進(jìn)行評(píng)估。

此外，相較于規(guī)模更大但多項(xiàng)選擇問(wèn)題的數(shù)據(jù)集，GAIA 注重問(wèn)題質(zhì)量而非數(shù)量。GAIA 的持續(xù)發(fā)展有望成為更全面評(píng)估 AI 系統(tǒng)泛化能力和穩(wěn)健性的關(guān)鍵組成部分。

GAIA 任務(wù)可能涉及調(diào)用各種模塊來(lái)完成，比如圖像分類(lèi)器可能返回錯(cuò)誤的標(biāo)簽。有些人可能會(huì)覺(jué)得這樣的評(píng)估有些含糊，因?yàn)?GAIA 看待系統(tǒng)為一個(gè)整體，而不是把錯(cuò)誤歸因于系統(tǒng)的子部分，比如網(wǎng)絡(luò)瀏覽或視覺(jué)模塊。然而，將 LLMs 與其他工具緊密結(jié)合以完成所有任務(wù)可能不是可持續(xù)的方法。未來(lái)的模型可能會(huì)在語(yǔ)言模型和其他能力之間更加集成，如視覺(jué)語(yǔ)言模型。

GAIA 的目標(biāo)是評(píng)估整個(gè) AI 系統(tǒng)，而不僅僅是特定的架構(gòu)標(biāo)準(zhǔn)。更廣泛地說(shuō)，對(duì)于復(fù)雜生成的自動(dòng)、事實(shí)和可解釋的評(píng)估一直是生成式 AI 中的一個(gè)長(zhǎng)期難題。

目前的評(píng)估方法可能存在一些限制，未來(lái)可能需要更復(fù)雜的方法，比如結(jié)合多模態(tài)系統(tǒng)，通過(guò)對(duì)圖像進(jìn)行復(fù)雜的序列修改，并在自然語(yǔ)言中提出明確問(wèn)題的方式來(lái)改進(jìn)生成模型的評(píng)估。

盡管深度學(xué)習(xí)在各領(lǐng)域取得了進(jìn)展，但全自動(dòng)化目前仍面臨無(wú)法預(yù)測(cè)的失敗，如自動(dòng)駕駛汽車(chē)的挑戰(zhàn)。解決 GAIA 問(wèn)題需要全自動(dòng)化，但這可能導(dǎo)致社會(huì)經(jīng)濟(jì)格局的改變，存在技術(shù)所有者主導(dǎo)價(jià)值捕獲的風(fēng)險(xiǎn)。

另外，GAIA 也存在一些局限。首先，GAIA 無(wú)法評(píng)估不同路徑通向正確答案的情況。論文作者建議未來(lái)考慮人類(lèi)和模型評(píng)估，以彌補(bǔ)這一缺陷。

此外，由于 OpenAI 的 API 未提供詳細(xì)工具調(diào)用日志，當(dāng)前只評(píng)估了具有工具訪問(wèn)權(quán)限的最強(qiáng)大的語(yǔ)言模型。研究團(tuán)隊(duì)希望在未來(lái)能夠在開(kāi)源領(lǐng)域添加其他具備足夠工具使用能力和日志記錄的模型。

為了創(chuàng)建現(xiàn)實(shí)且易于使用的基準(zhǔn)，需要兩輪注釋?zhuān)谝惠営勺⑨屨咴O(shè)計(jì)明確問(wèn)題，第二輪由兩位獨(dú)立注釋者回答問(wèn)題并排除歧義，盡管這過(guò)程徹底，仍可能存在歧義。

最后，GAIA 的一個(gè)重大限制在于它缺乏語(yǔ)言多樣性：所有問(wèn)題只能用“標(biāo)準(zhǔn)”英語(yǔ)提出，而且許多問(wèn)題主要依賴(lài)于英語(yǔ)網(wǎng)頁(yè)。

因此，GAIA 只是評(píng)估通用 AI 助手潛力的第一步，不應(yīng)視為它們成功的絕對(duì)證明。

參考鏈接：

https://arxiv.org/abs/2311.12983

作者：閆一米

編輯：學(xué)術(shù)君

正確率僅15%，GPT-4遠(yuǎn)不如人類(lèi)？

正確率僅15%，GPT-4遠(yuǎn)不如人類(lèi)？