只需要幾分鐘,就可以成功模仿專(zhuān)家行為,并記住所有學(xué)過(guò)的知識(shí),Google DeepMind 研發(fā)的 AI Agent,登上了 Nature 子刊。
據(jù)介紹,在 3D 模擬中,該智能體能夠在第一次見(jiàn)到的任務(wù)中實(shí)時(shí)模仿專(zhuān)家,并從第三人稱(chēng)視角實(shí)時(shí)可靠地獲取來(lái)自人類(lèi)搭檔的知識(shí)。
雖然該智能體之前從來(lái)沒(méi)有見(jiàn)過(guò)人類(lèi),但它可以在各種有挑戰(zhàn)性的導(dǎo)航問(wèn)題中從人類(lèi)和 AI 專(zhuān)家中快速學(xué)習(xí)。例如,它可以在包含大量障礙的復(fù)雜地形中穿梭。
相關(guān)研究論文以“Learning few-shot imitation as cultural transmission”為題,已發(fā)表在 Nature 子刊 Nature Communications 上。
研究團(tuán)隊(duì)認(rèn)為,該研究結(jié)果是對(duì)具身 AI 實(shí)現(xiàn)快速知識(shí)傳播的一次概念驗(yàn)證,是朝著人類(lèi)-AI 互動(dòng)的開(kāi)放式文化演變邁出的第一步。
另外,AI 從業(yè)者可以從人類(lèi)社會(huì)學(xué)習(xí)中汲取靈感,構(gòu)建出適應(yīng)當(dāng)下人類(lèi)伙伴的具身 AI 智能體,并妥善保護(hù)隱私。此外,具備社會(huì)學(xué)習(xí)能力的 AI 智能體或許還可以為研究人類(lèi)文化能力發(fā)展提供全新的建模工具。
具備實(shí)時(shí)文化傳播能力
文化傳播(Cultural transmission)是一項(xiàng)通用技能,使人們能夠在社交中實(shí)時(shí)獲取和使用信息,同時(shí)具備高度的準(zhǔn)確度和記憶力。在人類(lèi)社會(huì)中,文化演化使得技能、工具和知識(shí)代代相傳,并在這些過(guò)程中不斷積累和完善。
在這項(xiàng)工作中,研究團(tuán)隊(duì)通過(guò)應(yīng)用智能體-環(huán)境共適應(yīng)(agent environment co-adaptation)的方法,成功生成了一個(gè)具備實(shí)時(shí)文化傳播能力的 AI 智能體。
如上圖,為實(shí)現(xiàn)這一目標(biāo),他們引入了一個(gè)虛擬的 3D 任務(wù)空間,每個(gè)任務(wù)都包含由程序生成的地形、障礙物和目標(biāo)球。
在每個(gè)任務(wù)中,AI 智能體需要按照特定的循環(huán)順序訪問(wèn)目標(biāo)球以獲取獎(jiǎng)勵(lì),而這個(gè)順序是在任務(wù)開(kāi)始時(shí)隨機(jī)確定的。然而,AI 智能體并不知道正確的順序,所以它必須通過(guò)實(shí)驗(yàn)或從專(zhuān)家那里學(xué)習(xí)來(lái)弄清楚。不過(guò),這個(gè)任務(wù)空間設(shè)計(jì)得很復(fù)雜,可以通過(guò)調(diào)整世界的大小、障礙物的數(shù)量、地形的崎嶇程度以及目標(biāo)球的數(shù)量等參數(shù)來(lái)改變導(dǎo)航的難度。
研究人員通過(guò)精心設(shè)計(jì)的實(shí)驗(yàn)發(fā)現(xiàn),AI 智能體文化傳播的出現(xiàn)需要一組最小而充分的訓(xùn)練要素,被命名為 MEDAL-ADR,包括函數(shù)逼近、記憶、專(zhuān)家共同參與者、專(zhuān)家丟失、對(duì)專(zhuān)家的注意偏向以及自動(dòng)領(lǐng)域隨機(jī)化。
圖|MEDAL-ADR 要素
其中,記憶通過(guò) LSTM 網(wǎng)絡(luò)實(shí)現(xiàn),專(zhuān)家共同參與者是硬編碼的機(jī)器人,而自動(dòng)領(lǐng)域隨機(jī)化有助于訓(xùn)練 AI 智能體在多樣化的任務(wù)中展現(xiàn)出更好的行為。
這些組件的巧妙組合構(gòu)成了一個(gè)強(qiáng)大的 AI 智能體,其文化傳播能力在回憶(recall)、泛化(generalisation)和保真度(fidelity)三個(gè)方面均表現(xiàn)出色。
回憶評(píng)估了智能體在沒(méi)有專(zhuān)家在場(chǎng)的情況下復(fù)制演示的能力,泛化衡量了智能體是否能夠在未知任務(wù)上進(jìn)行文化傳播,而保真度則計(jì)算了智能體選擇與專(zhuān)家演示者的一致性程度。
最引人注目的是,這個(gè) AI 智能體的“大腦”神經(jīng)元展現(xiàn)出了強(qiáng)大的解釋力,專(zhuān)門(mén)負(fù)責(zé)編碼社交信息和目標(biāo)狀態(tài)。這一方法不僅使 AI 智能體在訓(xùn)練分布之外實(shí)現(xiàn)了泛化,而且在專(zhuān)家離開(kāi)后的單一情境內(nèi)依然能夠回想起演示,為實(shí)際應(yīng)用場(chǎng)景提供了更多可能性,尤其是在人類(lèi)數(shù)據(jù)收集困難、任務(wù)變化多樣且隱私至關(guān)重要的情況下。
一些局限性
盡管該研究提出的 MEDAL-ADR 方法可以使 AI 智能體在開(kāi)放式學(xué)習(xí)中適應(yīng)多樣的文化環(huán)境。
但是,研究者團(tuán)隊(duì)也指出了評(píng)估方法上的一些局限性。
首先,研究沒(méi)有從多個(gè)人中測(cè)試文化傳播,而是選擇了研究團(tuán)隊(duì)內(nèi)的一個(gè)單一參與者。因此,研究無(wú)法對(duì)跨越人群的強(qiáng)大性做出統(tǒng)計(jì)顯著的斷言。
其次,導(dǎo)航任務(wù)對(duì)合理的人類(lèi)行為的多樣性有一定的限制。為了更深入地了解通用的文化傳播,研究需要具有更廣泛和深度策略的任務(wù)。
最后,研究人員并未明確區(qū)分訓(xùn)練過(guò)的智能體是否記住了地理路徑,以及是否記住了正確球體順序。
MEDAL-ADR 在 GoalCycle3D 任務(wù)空間之外是否更為通用?答案可能是有條件的“否”。
GoalCycle3D 是一個(gè)龐大的、程序生成的任務(wù)空間,其作用類(lèi)似于更廣泛類(lèi)別任務(wù)的導(dǎo)航代表。這些任務(wù)涉及到需要反復(fù)進(jìn)行戰(zhàn)略選擇序列的活動(dòng),比如烹飪、導(dǎo)航和問(wèn)題解決。
然而,該方法需要一些環(huán)境條件,包括專(zhuān)家的可見(jiàn)性、退出和程序生成。如果在某個(gè)環(huán)境中無(wú)法創(chuàng)建近似條件,那么該方法就無(wú)法應(yīng)用。
此外,研究人員并不認(rèn)為 MEDAL-ADR 方法是人類(lèi)文化傳播發(fā)展的直接模型。但是,他們鼓勵(lì)未來(lái)的研究者進(jìn)行更多實(shí)驗(yàn)證明,如比較 MEDAL-ADR 的模型與不同階段兒童或非人動(dòng)物的行為,以及在實(shí)驗(yàn)室環(huán)境中研究人類(lèi)和 AI 的文化積累。這種實(shí)證研究有望加深對(duì)文化傳播、元學(xué)習(xí)和開(kāi)放式學(xué)習(xí)相關(guān)問(wèn)題的理解。
研究團(tuán)隊(duì)表示,他們期待未來(lái) AI 和文化進(jìn)化心理學(xué)領(lǐng)域的跨學(xué)科交流。
論文鏈接:
https://www.nature.com/articles/s41467-023-42875-2
作者:閆一米
編輯:學(xué)術(shù)君