版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

“全方位超越”GPT-4,接近人類(lèi)理解能力!全球最強(qiáng)大模型真的來(lái)了?

學(xué)術(shù)頭條
原創(chuàng)
一起見(jiàn)證人類(lèi)探索征途上的每一個(gè)重大突破。
收藏

最近,被稱(chēng)為“OpenAI最強(qiáng)競(jìng)對(duì)”的大模型公司 Anthropic 重磅發(fā)布了其第三代人工智能(AI)模型 ——Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

其中,Claude 3 Opu 為 Claude 3 系列模型的最強(qiáng)版本,具有接近人類(lèi)的理解能力,可以靈巧地處理開(kāi)放式提示和復(fù)雜的任務(wù),根據(jù)官方給到的資料,其性能全面超過(guò)了 GPT-4。

值得一提的是,Claude 3 系列模型具有與其他領(lǐng)先模型同等的復(fù)雜視覺(jué)功能,可以處理各種視覺(jué)格式,包括照片、圖表、圖形和技術(shù)圖表。

圖片

Anthropic 在其官方 X 上表示,Claude 3 系列模型“在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺(jué)方面樹(shù)立了新的行業(yè)基準(zhǔn)”。

圖片

據(jù)介紹,Claude 3 Opus 和 Claude 3 Sonnet 現(xiàn)已可以通過(guò) API 直接訪問(wèn)。目前,API 也已全面開(kāi)放,開(kāi)發(fā)人員可立即開(kāi)始使用這些模型。

另外,Claude 3 Sonnet 還可以供部分地區(qū)的用戶(hù)在網(wǎng)站(http://claude.ai)上免費(fèi)體驗(yàn),而 Claude 3 Opus 的使用權(quán)限,則只開(kāi)放給了 Claude Pro 用戶(hù)。

此外,Anthropic 團(tuán)隊(duì)還表示,Claude 3 系列模型解決了之前模型經(jīng)常出現(xiàn)“不必要的拒絕”的問(wèn)題。

智能新標(biāo)準(zhǔn)

評(píng)測(cè)結(jié)果顯示,Claude 3 Opus 在 AI 系統(tǒng)的大多數(shù)常用評(píng)估基準(zhǔn)上都優(yōu)于同類(lèi)產(chǎn)品,包括本科生水平的專(zhuān)家知識(shí)(MMLU)、研究生水平的專(zhuān)家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。它在復(fù)雜任務(wù)上表現(xiàn)出了接近人類(lèi)水平的理解力和流暢性,“引領(lǐng)著通用智能的前沿”。

所有 Claude 3 模型在分析和預(yù)測(cè)、細(xì)微內(nèi)容創(chuàng)建、代碼生成以及西班牙語(yǔ)、日語(yǔ)和法語(yǔ)等非英語(yǔ)語(yǔ)言對(duì)話方面的能力都得到了提高。

近乎即時(shí)的結(jié)果

Claude 3 系列模型支持實(shí)時(shí)客戶(hù)聊天、自動(dòng)完成和數(shù)據(jù)提取任務(wù),在這些任務(wù)中,響應(yīng)是即時(shí)和實(shí)時(shí)的。

其中,Claude 3 Haiku 是市場(chǎng)上同智能類(lèi)別中速度最快、性?xún)r(jià)比最高的模型。它可以在三秒內(nèi)讀取 arXiv 上一篇信息和數(shù)據(jù)密集的研究論文(約 10k token),并附帶圖表和圖形。

在絕大多數(shù)工作負(fù)載中,Claude 3 Sonnet 的智能水平比 Claude 2 和 Claude 2.1 高出了 2 倍。它在知識(shí)檢索或銷(xiāo)售自動(dòng)化等要求快速響應(yīng)的任務(wù)中表現(xiàn)出色。Claude 3 Opus 的速度要慢一些,與 Claude 2 和 Claude 2.1 類(lèi)似,但智能水平更高。

準(zhǔn)確性提高

與 Claude 2.1 相比,Claude 3 Opus 在具有挑戰(zhàn)性的開(kāi)放式問(wèn)題上的準(zhǔn)確率(或正確答案)提高了兩倍,同時(shí)也減少了錯(cuò)誤答案。

除了做出更可信的回答外,Claude 3 系列模型為來(lái)將啟用引用功能,這樣就可以通過(guò)指出參考資料中的精確句子來(lái)驗(yàn)證答案。

圖片

200K 上下文窗口和近乎完美的記憶

現(xiàn)在,Claude 3 系列模型可提供 200K 上下文窗口。不過(guò),所有三種型號(hào)都能接受超過(guò) 100 萬(wàn)個(gè) token 的輸入,未來(lái)也可能會(huì)向需要增強(qiáng)處理能力的特定客戶(hù)提供這種服務(wù)。另外,Claude 3 Opus 實(shí)現(xiàn)了接近完美的召回率,準(zhǔn)確率超過(guò) 99%。

圖片

Anthropic 團(tuán)隊(duì)表示,為提高模型的安全性和透明度,他們將繼續(xù)開(kāi)發(fā)諸如憲法人工智能(Constitutional AI)等方法,并對(duì)模型進(jìn)行微調(diào),以減輕新模式可能帶來(lái)的隱私問(wèn)題。

雖然與之前的模型相比,Claude 3 系列模型在生物知識(shí)、網(wǎng)絡(luò)相關(guān)知識(shí)和自主性等關(guān)鍵指標(biāo)上取得了進(jìn)步,但根據(jù)“負(fù)責(zé)任擴(kuò)展政策”( Responsible Scaling Policy),仍處于 AI 安全等級(jí) 2(ASL-2)。紅隊(duì)評(píng)估結(jié)果顯示,Claude 3 系列模型目前造成災(zāi)難性風(fēng)險(xiǎn)的可能性微乎其微。

更易于使用

Claude 3 系列模型更善于遵循復(fù)雜的多步驟指令。它們尤其擅長(zhǎng)遵循品牌聲音和響應(yīng)準(zhǔn)則,并開(kāi)發(fā)出用戶(hù)可以信賴(lài)的面向客戶(hù)的體驗(yàn)。此外,Claude 3 系列模型更善于以 JSON 等格式生成流行的結(jié)構(gòu)化輸出,從而更易于指導(dǎo)自然語(yǔ)言分類(lèi)和情感分析等用例。

在官方博客的最后,Anthropic 團(tuán)隊(duì)寫(xiě)道:

“在推動(dòng) AI 能力發(fā)展的同時(shí),我們也同樣致力于確保我們的安全防護(hù)措施能夠跟上性能飛躍的步伐。我們的假設(shè)是,站在 AI 發(fā)展的前沿是引導(dǎo)其走向積極社會(huì)成果的最有效方式?!?/p>

參考鏈接:

https://www.anthropic.com/news/claude-3-family

評(píng)論
卜和彥
大學(xué)士級(jí)
隨著AI技術(shù)的不斷發(fā)展,需要關(guān)注新興的AI詐騙等網(wǎng)絡(luò)安全威脅,需要不斷探索和創(chuàng)新,發(fā)揮AI技術(shù)的優(yōu)勢(shì),提高網(wǎng)絡(luò)安全工作的智能化水平。只有這樣,我們才能確保網(wǎng)絡(luò)安全的穩(wěn)定和可靠,為社會(huì)的進(jìn)步和發(fā)展提供有力保障!
2024-03-06
科普科普知識(shí)的搖籃!
大學(xué)士級(jí)
通過(guò)科學(xué)技術(shù)的發(fā)展,隨著時(shí)間的流逝,“在推動(dòng) AI 能力發(fā)展的同時(shí),我們也同樣致力于確保我們的安全防護(hù)措施能夠跟上性能飛躍的步伐。
2024-03-06
科普中國(guó)●yling
庶吉士級(jí)
在推動(dòng) AI 能力發(fā)展的同時(shí),我們也同樣致力于確保我們的安全防護(hù)措施能夠跟上性能飛躍的步伐。我們的假設(shè)是,站在 AI 發(fā)展的前沿是引導(dǎo)其走向積極社會(huì)成果的最有效方式。
2024-03-06