版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

“全方位超越”GPT-4,接近人類理解能力!全球最強大模型真的來了?

學(xué)術(shù)頭條
原創(chuàng)
一起見證人類探索征途上的每一個重大突破。
收藏

最近,被稱為“OpenAI最強競對”的大模型公司 Anthropic 重磅發(fā)布了其第三代人工智能(AI)模型 ——Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

其中,Claude 3 Opu 為 Claude 3 系列模型的最強版本,具有接近人類的理解能力,可以靈巧地處理開放式提示和復(fù)雜的任務(wù),根據(jù)官方給到的資料,其性能全面超過了 GPT-4。

值得一提的是,Claude 3 系列模型具有與其他領(lǐng)先模型同等的復(fù)雜視覺功能,可以處理各種視覺格式,包括照片、圖表、圖形和技術(shù)圖表。

圖片

Anthropic 在其官方 X 上表示,Claude 3 系列模型“在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面樹立了新的行業(yè)基準”。

圖片

據(jù)介紹,Claude 3 Opus 和 Claude 3 Sonnet 現(xiàn)已可以通過 API 直接訪問。目前,API 也已全面開放,開發(fā)人員可立即開始使用這些模型。

另外,Claude 3 Sonnet 還可以供部分地區(qū)的用戶在網(wǎng)站(http://claude.ai)上免費體驗,而 Claude 3 Opus 的使用權(quán)限,則只開放給了 Claude Pro 用戶。

此外,Anthropic 團隊還表示,Claude 3 系列模型解決了之前模型經(jīng)常出現(xiàn)“不必要的拒絕”的問題。

智能新標準

評測結(jié)果顯示,Claude 3 Opus 在 AI 系統(tǒng)的大多數(shù)常用評估基準上都優(yōu)于同類產(chǎn)品,包括本科生水平的專家知識(MMLU)、研究生水平的專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。它在復(fù)雜任務(wù)上表現(xiàn)出了接近人類水平的理解力和流暢性,“引領(lǐng)著通用智能的前沿”。

所有 Claude 3 模型在分析和預(yù)測、細微內(nèi)容創(chuàng)建、代碼生成以及西班牙語、日語和法語等非英語語言對話方面的能力都得到了提高。

近乎即時的結(jié)果

Claude 3 系列模型支持實時客戶聊天、自動完成和數(shù)據(jù)提取任務(wù),在這些任務(wù)中,響應(yīng)是即時和實時的。

其中,Claude 3 Haiku 是市場上同智能類別中速度最快、性價比最高的模型。它可以在三秒內(nèi)讀取 arXiv 上一篇信息和數(shù)據(jù)密集的研究論文(約 10k token),并附帶圖表和圖形。

在絕大多數(shù)工作負載中,Claude 3 Sonnet 的智能水平比 Claude 2 和 Claude 2.1 高出了 2 倍。它在知識檢索或銷售自動化等要求快速響應(yīng)的任務(wù)中表現(xiàn)出色。Claude 3 Opus 的速度要慢一些,與 Claude 2 和 Claude 2.1 類似,但智能水平更高。

準確性提高

與 Claude 2.1 相比,Claude 3 Opus 在具有挑戰(zhàn)性的開放式問題上的準確率(或正確答案)提高了兩倍,同時也減少了錯誤答案。

除了做出更可信的回答外,Claude 3 系列模型為來將啟用引用功能,這樣就可以通過指出參考資料中的精確句子來驗證答案。

圖片

200K 上下文窗口和近乎完美的記憶

現(xiàn)在,Claude 3 系列模型可提供 200K 上下文窗口。不過,所有三種型號都能接受超過 100 萬個 token 的輸入,未來也可能會向需要增強處理能力的特定客戶提供這種服務(wù)。另外,Claude 3 Opus 實現(xiàn)了接近完美的召回率,準確率超過 99%。

圖片

Anthropic 團隊表示,為提高模型的安全性和透明度,他們將繼續(xù)開發(fā)諸如憲法人工智能(Constitutional AI)等方法,并對模型進行微調(diào),以減輕新模式可能帶來的隱私問題。

雖然與之前的模型相比,Claude 3 系列模型在生物知識、網(wǎng)絡(luò)相關(guān)知識和自主性等關(guān)鍵指標上取得了進步,但根據(jù)“負責任擴展政策”( Responsible Scaling Policy),仍處于 AI 安全等級 2(ASL-2)。紅隊評估結(jié)果顯示,Claude 3 系列模型目前造成災(zāi)難性風險的可能性微乎其微。

更易于使用

Claude 3 系列模型更善于遵循復(fù)雜的多步驟指令。它們尤其擅長遵循品牌聲音和響應(yīng)準則,并開發(fā)出用戶可以信賴的面向客戶的體驗。此外,Claude 3 系列模型更善于以 JSON 等格式生成流行的結(jié)構(gòu)化輸出,從而更易于指導(dǎo)自然語言分類和情感分析等用例。

在官方博客的最后,Anthropic 團隊寫道:

“在推動 AI 能力發(fā)展的同時,我們也同樣致力于確保我們的安全防護措施能夠跟上性能飛躍的步伐。我們的假設(shè)是,站在 AI 發(fā)展的前沿是引導(dǎo)其走向積極社會成果的最有效方式?!?/p>

參考鏈接:

https://www.anthropic.com/news/claude-3-family

評論
卜和彥
大學(xué)士級
隨著AI技術(shù)的不斷發(fā)展,需要關(guān)注新興的AI詐騙等網(wǎng)絡(luò)安全威脅,需要不斷探索和創(chuàng)新,發(fā)揮AI技術(shù)的優(yōu)勢,提高網(wǎng)絡(luò)安全工作的智能化水平。只有這樣,我們才能確保網(wǎng)絡(luò)安全的穩(wěn)定和可靠,為社會的進步和發(fā)展提供有力保障!
2024-03-06
科普科普知識的搖籃!
太師級
通過科學(xué)技術(shù)的發(fā)展,隨著時間的流逝,“在推動 AI 能力發(fā)展的同時,我們也同樣致力于確保我們的安全防護措施能夠跟上性能飛躍的步伐。
2024-03-06
科普中國●yling
進士級
在推動 AI 能力發(fā)展的同時,我們也同樣致力于確保我們的安全防護措施能夠跟上性能飛躍的步伐。我們的假設(shè)是,站在 AI 發(fā)展的前沿是引導(dǎo)其走向積極社會成果的最有效方式。
2024-03-06