版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

Science重磅:人怎樣學(xué)會(huì)語(yǔ)言的?AI給出驚人的線索!

學(xué)術(shù)頭條
原創(chuàng)
一起見(jiàn)證人類探索征途上的每一個(gè)重大突破。
收藏

在兒童時(shí)期,一個(gè)人是怎樣學(xué)會(huì)“第一個(gè)單詞”的?又是如何把“聽(tīng)到的”和“看到的”的事物聯(lián)系起來(lái)的?
長(zhǎng)久以來(lái),盡管人們針對(duì)這一話題進(jìn)行了廣泛的討論,并提出了多種假設(shè),但相關(guān)研究結(jié)果缺乏對(duì)現(xiàn)實(shí)世界的普適性

如今,一種新的人工智能(AI)模型,或許可以給我們提供一些更有說(shuō)服力的線索。

由紐約大學(xué)數(shù)據(jù)科學(xué)中心研究科學(xué)家 Wai Keen Vong 領(lǐng)導(dǎo)的研究團(tuán)隊(duì),基于一名兒童(baby S)一年多(從 6 個(gè)月到 25 個(gè)月)第一視角錄制的視頻和音頻數(shù)據(jù),訓(xùn)練了一個(gè)多模態(tài)人工智能系統(tǒng)——基于兒童視角的對(duì)比學(xué)習(xí)(Child’s View for Contrastive Learning,CVCL)模型,為人類早期語(yǔ)言學(xué)習(xí)提供了新的見(jiàn)解。

圖片

圖|6 個(gè)月大的 baby S 佩戴著頭戴式攝像機(jī)。(來(lái)源:Wai Keen Vong)

更重要的是,該研究不僅為了解兒童如何學(xué)習(xí)語(yǔ)言和概念提供了一個(gè)有價(jià)值的框架,而且對(duì)在下一代多模態(tài)人工智能系統(tǒng)在語(yǔ)言和視覺(jué)表征之間建立聯(lián)系,以及開(kāi)發(fā)能以更像人類的方式學(xué)習(xí)語(yǔ)言的人工智能系統(tǒng)至關(guān)重要。

相關(guān)研究論文以“Grounded language acquisition through the eyes and ears of a single child”為題,已發(fā)表在權(quán)威科學(xué)期刊 Science 上。

“我們首次展示了,根據(jù)來(lái)自一個(gè)兒童的現(xiàn)實(shí)生活真實(shí)場(chǎng)景輸入進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò),可以學(xué)會(huì)將單詞與它們的視覺(jué)對(duì)應(yīng)物聯(lián)系起來(lái),” Vong 說(shuō),“我們的研究結(jié)果表明,最近的算法進(jìn)步與一個(gè)孩子的自然體驗(yàn)是如何有潛力重塑我們對(duì)早期語(yǔ)言和概念獲取的理解的。”

“經(jīng)典爭(zhēng)論”有望被解決

盡管 GPT-4 等大模型可以學(xué)習(xí)和使用人類語(yǔ)言,但它們是從天文數(shù)字般的語(yǔ)言輸入中學(xué)習(xí)的,比兒童在學(xué)習(xí)如何理解和使用一種語(yǔ)言時(shí)接受的要多得多,兒童每年只能接收數(shù)百萬(wàn)字的文本。

而且,大約在 6-9 個(gè)月大時(shí),兒童開(kāi)始學(xué)習(xí)第一個(gè)單詞,便能把聽(tīng)到的單詞和看到的事物聯(lián)系起來(lái)。
這就涉及到一個(gè)有關(guān)兒童學(xué)習(xí)語(yǔ)言需要哪些要素的經(jīng)典爭(zhēng)論——

兒童在學(xué)習(xí)語(yǔ)言時(shí)能在多大程度上依賴于觀察和經(jīng)驗(yàn)(即通過(guò)相對(duì)通用的學(xué)習(xí)機(jī)制從感官輸入中學(xué)習(xí))?又有多少需要更強(qiáng)的天生或先天學(xué)習(xí)傾向(即歸納偏見(jiàn))?

“歸納偏見(jiàn)”(inductive biases)是機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)領(lǐng)域中的一個(gè)重要概念,是指算法在學(xué)習(xí)過(guò)程中對(duì)某些解決方案的天然偏好或預(yù)設(shè)傾向。這種偏見(jiàn)影響了算法從數(shù)據(jù)中歸納和學(xué)習(xí)的方式,在沒(méi)有足夠多信息的情況下,可以幫助算法做出合理的假設(shè)或決策。
“歸納偏見(jiàn)”對(duì)于算法的有效性至關(guān)重要,有助于算法在接收新數(shù)據(jù)后做出更合理的預(yù)測(cè),避免因過(guò)于依賴訓(xùn)練數(shù)據(jù)的特定特征而導(dǎo)致泛化能力變差,即在新數(shù)據(jù)上表現(xiàn)不佳。

例如,假設(shè)一個(gè)機(jī)器學(xué)習(xí)模型的任務(wù)是根據(jù)以往的天氣數(shù)據(jù)預(yù)測(cè)明天的天氣。如果這個(gè)模型有歸納偏見(jiàn),認(rèn)為天氣模式通常是連續(xù)的(即今天的天氣狀況會(huì)影響到明天的天氣),那么它在做出預(yù)測(cè)時(shí)就會(huì)依據(jù)這個(gè)偏見(jiàn)。

紐約大學(xué)數(shù)據(jù)科學(xué)中心和心理學(xué)系助理教授、論文作者之一 Brenden Lake 認(rèn)為,通過(guò)使用人工智能模型研究?jī)和媾R的實(shí)際語(yǔ)言學(xué)習(xí)問(wèn)題,人類或許可以解決關(guān)于兒童學(xué)習(xí)單詞所需成分的經(jīng)典爭(zhēng)論

為此,他們利用安裝在 baby S 頭部的輕便攝像頭,記錄了總時(shí)長(zhǎng)超過(guò) 60 小時(shí)的第一人稱視角學(xué)習(xí)過(guò)程的視頻。

這些視頻記錄了大約 25 萬(wàn)個(gè)單詞實(shí)例(即交流中使用的單詞數(shù)量,很多都是重復(fù)的),這些單詞與兒童在聽(tīng)到這些詞時(shí)所看到的畫面相關(guān)聯(lián),涵蓋了從進(jìn)餐、讀書到玩耍等不同階段的多種活動(dòng)。

然后,研究團(tuán)隊(duì)基于這些數(shù)據(jù)訓(xùn)練了一個(gè)多模態(tài)神經(jīng)網(wǎng)絡(luò),即前面提到的 CVCL 模型。

圖片

圖|CVCL 模型架構(gòu)和評(píng)估程序。(來(lái)源:該論文)

據(jù)論文描述,CVCL 模型由兩個(gè)獨(dú)立的模塊組成:視覺(jué)編碼器處理單幀視頻,語(yǔ)言編碼器處理轉(zhuǎn)錄的面向兒童的語(yǔ)言。兩者結(jié)合起來(lái),并使用對(duì)比學(xué)習(xí)算法進(jìn)行訓(xùn)練,從而學(xué)習(xí)有用的輸入特征及其跨模態(tài)關(guān)聯(lián)。例如,當(dāng)父母在兒童面前說(shuō)話時(shí),使用的某些詞很可能指的是兒童能看到的某些東西,也就是通過(guò)聯(lián)系視覺(jué)和語(yǔ)言線索來(lái)培養(yǎng)理解能力。

然而,令人驚訝的是,基于有限的數(shù)據(jù),CVCL 模型真的學(xué)會(huì)了大量單詞和概念。

Vong 解釋說(shuō):“這為模型提供了關(guān)于哪些單詞應(yīng)該與哪些對(duì)象關(guān)聯(lián)的線索。結(jié)合這些線索,就是對(duì)比學(xué)習(xí)能夠逐漸確定哪些詞與哪些視覺(jué)內(nèi)容相匹配,并捕捉到孩子學(xué)習(xí)第一個(gè)詞的過(guò)程的關(guān)鍵?!?/p>

針對(duì)這一結(jié)果,Lake 表示,“看起來(lái),僅通過(guò)學(xué)習(xí),我們可以獲得的東西比通常認(rèn)為的要多?!?/strong>

像兒童一樣學(xué)習(xí)

之后,研究團(tuán)隊(duì)對(duì) CVCL 模型的訓(xùn)練效果進(jìn)行了兩項(xiàng)評(píng)估。

首先,他們采用與評(píng)估兒童學(xué)習(xí)的常用方法來(lái)測(cè)試模型。結(jié)果顯示,CVCL 模型能夠?qū)W會(huì)人類兒童日常經(jīng)驗(yàn)中大量的單詞和概念,甚至能夠將學(xué)到的一些單詞泛化到與訓(xùn)練時(shí)完全不同的視覺(jué)環(huán)境中,這與實(shí)驗(yàn)室中測(cè)試兒童時(shí)觀察到的現(xiàn)象一致。

圖片

然后,他們針對(duì)單詞-對(duì)象的映射質(zhì)量,也對(duì) CVCL 模型及其他替代模型進(jìn)行了評(píng)估。通過(guò)提示模型選擇與目標(biāo)單詞匹配的圖像,他們發(fā)現(xiàn) CVCL 模型的分類準(zhǔn)確度達(dá)到了 61.6%。在針對(duì) 22 個(gè)視覺(jué)概念的評(píng)估中,CVCL 模型在 11 個(gè)概念上的表現(xiàn)接近了同類模型的性能(這些同類模型擁有更大的數(shù)據(jù)集)。

圖片

這一研究表明,即便在有限的兒童經(jīng)驗(yàn)中,使用具有相對(duì)通用學(xué)習(xí)機(jī)制的人工智能模型也能夠?qū)崿F(xiàn)重要的單詞學(xué)習(xí)。同時(shí),這一研究為兒童語(yǔ)言學(xué)習(xí)理論提供了新的視角,強(qiáng)調(diào)了學(xué)習(xí)和交叉情境機(jī)制的重要性。
然而,該研究也存在一些局限性,并不能完全概括兒童在后續(xù)成長(zhǎng)中的學(xué)習(xí)模式,互斥性、對(duì)比原則、形狀偏好、句法線索、社交或手勢(shì)線索以及假設(shè)生成等其他因素,都可能發(fā)揮作用。而且,研究團(tuán)隊(duì)也并未考慮不同兒童的活躍性、具體動(dòng)作等對(duì)學(xué)習(xí)過(guò)程的影響。

只有將這些因素納入模型或訓(xùn)練過(guò)程,系統(tǒng)性地測(cè)試它們對(duì)單詞學(xué)習(xí)的貢獻(xiàn),才可以更全面地模擬人類幼崽實(shí)際的學(xué)習(xí)過(guò)程。

只是一個(gè)開(kāi)始

近年來(lái),除了 CVCL 模型,科學(xué)家也開(kāi)展了一系列有關(guān)人工智能系統(tǒng)模仿兒童認(rèn)知的研究。

例如,2022 年,DeepMind 的深度學(xué)習(xí)系統(tǒng) PLATO 受兒童視覺(jué)認(rèn)知啟發(fā),以類似兒童的方式學(xué)習(xí)了物理世界的基本常識(shí)性規(guī)則。據(jù)介紹,通過(guò)觀看視頻,在僅僅 28 個(gè)小時(shí)內(nèi),PLATO 便能夠感知并預(yù)測(cè)物體的行為,展現(xiàn)出對(duì)常識(shí)性知識(shí)的直觀理解,表現(xiàn)出對(duì)未知物體和動(dòng)力學(xué)的驚人魯棒性。

圖片

圖|PLATO 使用感知模型和動(dòng)態(tài)模型對(duì)每個(gè)物體進(jìn)行預(yù)測(cè)。(來(lái)源:Nature Human Behaviour)

此外,研究發(fā)現(xiàn),PLATO 不僅能夠?qū)⑵谕爬橐唤M新的對(duì)象和事件,還能在相對(duì)小的數(shù)據(jù)集上成功演示學(xué)習(xí)。這些發(fā)現(xiàn),與科學(xué)家此前在兒童研究中看到的特征相似。

以上成功案例表明,即使在有限的情境中,通過(guò)結(jié)合表示學(xué)習(xí)和聯(lián)想學(xué)習(xí)兩種機(jī)制,人工智能也能在語(yǔ)言學(xué)習(xí)方面取得重大進(jìn)展。

那么,未來(lái)的人工智能最終是否可以完全像人一樣思考呢?

按照人工智能之父 Alan Turing 在 1950 年的說(shuō)法,如果從學(xué)習(xí)兒童的思維開(kāi)始,并接受適當(dāng)?shù)慕?jīng)驗(yàn),計(jì)算機(jī)就可以像成年人一樣思考。

“與其嘗試制作一個(gè)模擬成人思維的程序,為何不嘗試制作一個(gè)模擬兒童思維的程序呢?”

或許這些研究,只是一個(gè)好的開(kāi)始。

參考鏈接:

https://www.science.org/doi/10.1126/science.adi1374https://www.nature.com/articles/s41562-022-01394-8

評(píng)論
科普科普知識(shí)的搖籃!
太師級(jí)
隨著科學(xué)技術(shù)發(fā)展,在下一代多模態(tài)人工智能系統(tǒng)在語(yǔ)言和視覺(jué)表征之間建立聯(lián)系,以及開(kāi)發(fā)能以更像人類的方式學(xué)習(xí)語(yǔ)言的人工智能系統(tǒng)至關(guān)重要?。?!
2024-02-02
坦 蕩 蕩
少師級(jí)
兒童在學(xué)習(xí)語(yǔ)言時(shí)能在多大程度上依賴于觀察和經(jīng)驗(yàn),通過(guò)使用人工智能模型研究?jī)和媾R的實(shí)際語(yǔ)言學(xué)習(xí)問(wèn)題,人類或許可以解決關(guān)于兒童學(xué)習(xí)單詞所需成分的經(jīng)典爭(zhēng)論。
2024-02-02
鑫哥科普
大學(xué)士級(jí)
一個(gè)人是怎樣學(xué)會(huì)“第一個(gè)單詞”的?又是如何把“聽(tīng)到的”和“看到的”的事物聯(lián)系起來(lái)的?學(xué)習(xí)了這篇文章之后讓我知道了許多知識(shí)
2024-02-02