一文讀懂 AI 最新進(jìn)展!打工人使用指南→

科普中國(guó)
公眾科普,科學(xué)傳播。
收藏

2023 年 3 月,以 GPT-4 為代表的 AI 技術(shù)掀起了一波 AI 熱,而時(shí)隔半年,AI 領(lǐng)域又有了很多新進(jìn)展,其中有一些可能會(huì)徹底改變身為“打工人”的生活。

下面,我們就來(lái)盤點(diǎn)一下這半年來(lái),AI 領(lǐng)域那些最值得你關(guān)注的事情。

GPT 最大對(duì)手 Gemini 出現(xiàn)

2023 年 5 月,在 Google I/O 開發(fā)者大會(huì)上,谷歌 CEO 劈柴(PiChai)透露出谷歌旗下的 Deep Mind 正在訓(xùn)練 Gemini(雙子星)模型。

Gemini 是專門對(duì)標(biāo) GPT-4 的大語(yǔ)言模型,根據(jù)半導(dǎo)體研究公司 SemiAnalysis 的分析,Gemini 的算力會(huì)達(dá)到 GPT-4 的 5 倍。

另外和 GPT-4 相比,Genimi 能更好地支持多模態(tài)輸入,這意味著除了文字信息,Gemini 還能處理圖片、語(yǔ)音信息,這讓 Gemini 用起來(lái)可能會(huì)比現(xiàn)在的 GPT-4 更加方便。

而且我們可能很快就能見證 Gemini 的表現(xiàn)。根據(jù)海外科技媒體《The Information》在 9 月 14 日的報(bào)道,Gemini 已經(jīng)向一些公司開放了使用、測(cè)試的權(quán)限??赡芤涣硕嗑?Gemini 就會(huì)部署到谷歌的產(chǎn)品矩陣中,開始為大眾服務(wù)。

圖片

圖源:網(wǎng)絡(luò)

Open AI 訓(xùn)練,更加多才多藝的“GPT-5”

當(dāng)然了,面對(duì) Gemini 這樣具有多模態(tài)能力的對(duì)手,OpenAI 也不會(huì)坐以待斃。

其實(shí)早在今年 3 月份的 GPT-4 發(fā)布會(huì)上,GPT-4 就展現(xiàn)出了多模態(tài)的處理能力。當(dāng)時(shí)發(fā)布會(huì)上,演示者手繪了一張網(wǎng)頁(yè)的草圖,拍照發(fā)給 GPT-4 告訴它按這種布局做個(gè)網(wǎng)頁(yè),GPT-4 立即寫出了網(wǎng)頁(yè)代碼。

不過在發(fā)布會(huì)結(jié)束后的實(shí)際應(yīng)用中,使用者們似乎并沒有體驗(yàn)到 ChatGPT 的多模態(tài)處理能力。

為了應(yīng)對(duì)谷歌的 Gemini 的挑戰(zhàn),OpenAI 將 ChatGPT 和新型圖像生成模型 DALL·E-3 結(jié)合起來(lái),讓 GPT 更加“多才多藝”。在 9 月 25 日,GPT-4 版本更新之后,它也能夠處理語(yǔ)音和圖片信息。

比如,下面是用 DALL·E-3 和 ChatGPT 共同生成的內(nèi)容。GPT 不僅能夠根據(jù)文字繪制對(duì)應(yīng)的圖片,也能解釋圖片上的信息,并且根據(jù)對(duì)話對(duì)圖片進(jìn)行一些修改。

圖片

DALLE3 根據(jù)文本創(chuàng)作的圖片

圖片

GPT 解釋為什么圖片中的小刺猬這么好

圖片

按照要求“展現(xiàn)小刺猬很熱心”DALL·E 3 生成的圖片

除了把 DALL·E-3 和 ChatGPT 結(jié)合起來(lái),OpenAI 也開始部署“GPT-5”。在 9 月 25 日發(fā)布的 GPT 新版本中,已經(jīng)引入了語(yǔ)音交流和識(shí)別圖像的測(cè)試功能。

其實(shí)在今年 3 月(也就是在 GPT-4 出現(xiàn)之后不久),出于對(duì)信息安全、隱私等方面的擔(dān)憂,網(wǎng)絡(luò)上曾經(jīng)掀起過一股呼吁暫緩研究 GPT-5 的浪潮。作為 OpenAI 的 CEO,薩姆·奧特曼也承諾短期內(nèi)不會(huì)訓(xùn)練 GPT-5 模型。

根據(jù) The Information 的報(bào)道,在 GPT-4 出現(xiàn)之后半年,OpenAI 已經(jīng)開始研發(fā)一款新的代號(hào)“Gobi”的模型,這種模型在設(shè)計(jì)之初就具有多模態(tài)能力。甚至一些媒體聲稱,它有可能會(huì)是未來(lái)的 GPT-5。

微軟發(fā)布“打工人福利套餐”Microsoft Copilot

9 月 21 日,微軟發(fā)布了 Microsoft Copilot 全家桶。如果你對(duì) Microsoft Copilot 比較陌生,那可以這么理解,我們常用的 Word、Excel、PPT 等軟件以及 Windows 自帶的瀏覽器都將獲得 GPT-4 的加持。

以我們最常用的 Word 為例,在寫文稿的時(shí)候,你可以直接告訴 Word 一個(gè)主題,讓它自動(dòng)生成一段和這個(gè)主題相關(guān)的文稿。同時(shí),它還具備配圖功能,你甚至不需要花時(shí)間在網(wǎng)上找圖,直接讓它根據(jù)文字生成圖片即可。

圖片

還有 Excel,在新的 Microsoft Copilot 全家桶中,你不再需要記各種公式,也不需要在 Excel 里編程,只需要告訴 Excel 你的目的,它會(huì)自動(dòng)替你完成寫公式、寫代碼、分析數(shù)據(jù)的工作,你只需要等著看結(jié)果就可以了。

除此之外,在瀏覽網(wǎng)頁(yè)的時(shí)候,你甚至可以不用詳細(xì)閱讀網(wǎng)頁(yè)的內(nèi)容,瀏覽器可以直接幫你總結(jié)出當(dāng)前頁(yè)面的重要信息,幫你大大節(jié)約時(shí)間。

這可能是這半年來(lái)對(duì)打工人最“友好”的 AI 大禮包。

AI 幫助人類了解氣味

在人類的視覺、聽覺、嗅覺中,嗅覺可能比我們想象的復(fù)雜得多。

對(duì)于視覺,我們看到的顏色可以跟光的波長(zhǎng)建立關(guān)聯(lián),對(duì)于聽覺,聲音跟物體的振動(dòng)頻率有關(guān)。而對(duì)于嗅覺,人類不僅擁有數(shù)百個(gè)嗅覺感受器,生活中常見的味道往往是由很多種類的氣味分子共同形成的,因此很難建立一個(gè)簡(jiǎn)單又完美的數(shù)學(xué)模型。

今年 8 月發(fā)表在《科學(xué)》上的一篇論文指出,科學(xué)家通過“圖形神經(jīng)網(wǎng)絡(luò)”的 AI 技術(shù),識(shí)別出了氣味與成分之間的關(guān)聯(lián),生成了氣味圖譜。依據(jù)這個(gè)圖譜,我們就可以利用已知的化合物去配置想要的味道。

更重要的是,AI 繪制的氣味地圖涵蓋了 50 萬(wàn)種潛在的氣味,這意味著在 AI 的幫助下,我們可能能聞到之前從未想象過的味道。這可能會(huì)大大改變食品還有香料行業(yè)的現(xiàn)狀,讓我們的生活更“有味”。

圖片

AI 識(shí)別氣味的過程,圖片來(lái)源:參考文獻(xiàn)

自動(dòng)駕駛親口告訴你,自己是怎么開車的

在 9 月 14 日,自動(dòng)駕駛公司 Wayve 發(fā)布了開環(huán)自動(dòng)駕駛評(píng)論器 LINGO-1。我們可以把它簡(jiǎn)單理解成是一種自動(dòng)駕駛解說器。

自動(dòng)駕駛為什么需要配一個(gè)解說器?其實(shí)這是一項(xiàng)非常有趣又很重要的研究。想象一下,你在開車的時(shí)候,每做一個(gè)選擇、動(dòng)作肯定是有某個(gè)依據(jù)的。比如,你覺得前面的車太慢了,同時(shí)旁邊的車道又很空很安全,于是你決定去開到旁邊的車道去超車,或者在路口你放慢了車速,是因?yàn)檫@里人比較多,你需要謹(jǐn)慎觀察周圍的環(huán)境。

LINGO-1 也能夠把自動(dòng)駕駛汽車每一步的行為用人們熟悉的自然語(yǔ)言解釋出來(lái),還能根據(jù)人類的特定問題作出回應(yīng),比如當(dāng)自動(dòng)駕駛汽車停在路口的時(shí)候,你可以問它“你現(xiàn)在在觀察什么?”;如果身邊有人在騎自行車,你也可以問自動(dòng)駕駛汽車“你怎么判斷你跟這個(gè)騎自行車的人保持了安全距離?”

目前 LINGO-1 的回答準(zhǔn)確率大約只有 60%,但 LINGO-1 的能力還在不斷提升,而且這種研究意義很大。

它能夠提高人工智能的可解釋性。過去自動(dòng)駕駛汽車的很多決策對(duì)人類來(lái)說都是一個(gè)黑箱,我們不知道汽車為什么要變道行駛,也不知道為什么前面明明可以超車,它卻選擇不超車。在了解 AI 是怎么樣做決定之后,工程師們也能更好地設(shè)計(jì)自動(dòng)駕駛算法,不斷提高自動(dòng)駕駛汽車的安全性。同時(shí)也能增加普通用戶對(duì)自動(dòng)駕駛的理解和信任,讓人工智能做決策的過程不再是一個(gè)黑箱。

AI 在多項(xiàng)比賽中超越人類

8 月 30 日,一篇發(fā)表在《自然》上的文章顯示,在第一人稱視角的無(wú)人機(jī)競(jìng)速項(xiàng)目上,AI 已經(jīng)超越了人類。

第一人稱視角的無(wú)人機(jī)競(jìng)速跟一般的遙控飛機(jī)不一樣,飛行員需要從高速飛行的無(wú)人機(jī)視角觀察環(huán)境,進(jìn)行操縱。對(duì) AI 來(lái)說,AI 需要快速分析視頻傳感器中傳回的信息,并做出決策優(yōu)化飛行路線。按照《自然》文章中的說法,能夠在這項(xiàng)比賽中打敗人類冠軍,是“移動(dòng)機(jī)器人和機(jī)器智能領(lǐng)域的里程碑”。這項(xiàng)成果可能對(duì)未來(lái)的自動(dòng)駕駛汽車、無(wú)人飛行器具有重要的價(jià)值。

圖片

除了在無(wú)人機(jī)領(lǐng)域,在驗(yàn)證碼領(lǐng)域,AI 也有驚人的表現(xiàn)。

驗(yàn)證碼在生活中非常常見,當(dāng)你想輸入賬號(hào)登錄網(wǎng)頁(yè)的時(shí)候,往往會(huì)看到各種各樣的驗(yàn)證碼,包括識(shí)別奇形怪狀的字母、數(shù)字,拖拽拼圖一樣的滑塊,或者點(diǎn)擊“腦袋向上”的圖片。這些驗(yàn)證碼的目的是防止機(jī)器人惡意登錄、注冊(cè)。

但 2023 年 7 月的一篇文章顯示,AI 可能比人類更擅長(zhǎng)應(yīng)對(duì)驗(yàn)證碼。實(shí)驗(yàn)邀請(qǐng)了超過 1000 名人類測(cè)試者讓他們使用 120 個(gè)主流網(wǎng)站上的驗(yàn)證碼。

結(jié)果發(fā)現(xiàn),人類解決驗(yàn)證碼問題的準(zhǔn)確率在 50%~80%,相比之下,AI 解決驗(yàn)證碼的準(zhǔn)確率在 85%~100%,大部分都在 96% 以上。除了準(zhǔn)確率比人高,AI 解決驗(yàn)證碼的時(shí)間也比人類快 0.5 秒。

這意味著,隨著 AI 技術(shù)的發(fā)展,人類用來(lái)防范 AI 的驗(yàn)證碼作用可能也越來(lái)越小,這對(duì)網(wǎng)絡(luò)和信息安全來(lái)說是一項(xiàng)非常嚴(yán)峻的挑戰(zhàn)。科學(xué)家們需要開始設(shè)計(jì)能防住 AI、又不會(huì)把人類難倒的新型驗(yàn)證碼了。

人腦模擬計(jì)劃“失敗”

雖然近些年人工智能技術(shù)突飛猛進(jìn),但是在用 AI 模擬人腦這件事上,人類慘遭“滑鐵盧”。

在 2013 年,歐洲的科學(xué)家們開啟了一個(gè)為期 10 年的“人類大腦計(jì)劃”??茖W(xué)家們打算在 10 年的時(shí)間里,用頂尖的計(jì)算機(jī)技術(shù)模擬人腦的上百億個(gè)神經(jīng)元和它們的神經(jīng)突觸,從而還原人類大腦的運(yùn)行過程,揭開人類大腦的奧秘。

今年 10 月 1 日,就是這個(gè)項(xiàng)目的“兌現(xiàn)”時(shí)間,但科學(xué)家們總共投入了 13 億歐元(約 100 億人民幣),卻始終距離“模擬人類大腦”這個(gè)目標(biāo)相去甚遠(yuǎn),科學(xué)家們遠(yuǎn)遠(yuǎn)低估了人類大腦的復(fù)雜程度??梢哉f,這是人類建造“人工智能”嘗試上的一次失敗。

雖然在人類大腦計(jì)劃中,人類沒有成功建立起一個(gè)“人工智能”,但這樣的探索非常有意義。在這個(gè)項(xiàng)目中,科學(xué)家們確實(shí)對(duì)人類大腦有了更深層次的了解。比如科學(xué)家們繪制出了更詳盡的人類大腦圖譜,在前額葉皮層中還發(fā)現(xiàn)了幾個(gè)之前未知的腦區(qū)。

另外,科學(xué)家們建立起了基因表達(dá)和大腦結(jié)構(gòu)之間的關(guān)聯(lián),科學(xué)家們能夠從基因?qū)用嫔涎芯恳恍┐竽X結(jié)構(gòu)相關(guān)的疾?。ū热缫钟舭Y)。一些數(shù)字大腦模型在帕金森等疾病領(lǐng)域也已經(jīng)有了臨床應(yīng)用。

圖片

圖源:unsplash.com 攝影師:Xu Haiwei

除了歐洲的人腦計(jì)劃,中國(guó)、美國(guó)、日本、韓國(guó)、澳大利亞等國(guó)家也都有自己的人腦計(jì)劃,只有我們更深入地了解人腦結(jié)構(gòu),了解智能的本源,才能更好地發(fā)展“人工智能”技術(shù)。

人工智能領(lǐng)域的發(fā)展極其迅速,在半年里,GPT-4 就遇到了強(qiáng)勁對(duì)手、AI 幫助人類構(gòu)建起了氣味圖譜和更詳盡的大腦圖譜,自動(dòng)駕駛汽車也擁有了“講解員”。

正是這樣迅猛的技術(shù)發(fā)展,讓我們能夠享受到更加安全、便捷的生活。它們的發(fā)展是生活中每天都在上演的科幻大片。

參考文獻(xiàn)

[1] https://www.semianalysis.com/p/google-gemini-eats-the-world-gemini

[2]https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

[3] https://openai.com/dall-e-3

[4]https://blogs.microsoft.com/zh/blog/2023/09/21/announcing-microsoft-copilot-your-everyday-ai-companion/

[5] https://sitn.hms.harvard.edu/flash/2023/this-ai-smells-better-than-you/

[6] https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

[7] https://www.nature.com/articles/d41586-023-02600-x#ref-CR3

[8] https://arxiv.org/pdf/2307.12108.pdf

[9] https://qz.com/ai-bots-recaptcha-turing-test-websites-authenticity-1850734350

[10] https://www.nature.com/articles/s41586-023-06419-4

策劃制作

作者丨科學(xué)邊角料 科普?qǐng)F(tuán)隊(duì)

審核丨于旸 騰訊安全玄武實(shí)驗(yàn)室負(fù)責(zé)人

策劃丨崔瀛昊

責(zé)編丨林林

評(píng)論
科普5f0d22ea
學(xué)士級(jí)
只有我們更深入地了解人腦結(jié)構(gòu),了解智能的本領(lǐng),才能更好地發(fā)展“人工智能”技術(shù)。
2023-10-10
曲靖人在宜良
學(xué)士級(jí)
感謝科普!
2023-10-10
科普5f17ba8c
學(xué)士級(jí)
已認(rèn)真閱讀。
2023-10-10