版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

LLMs 玩狼人殺:清華大學(xué)驗(yàn)證大模型參與復(fù)雜交流博弈游戲的能力

HyperAI超神經(jīng)
人工智能說(shuō)明書(shū),了解 AI 的功效和副作用。
收藏

作者:彬彬

編輯:李寶珠,三羊

清華大學(xué)研究團(tuán)隊(duì)提出了一種用于交流游戲的框架,展示了大語(yǔ)言模型從經(jīng)驗(yàn)中學(xué)習(xí)的能力,還發(fā)現(xiàn)大語(yǔ)言模型具有非預(yù)編程的策略行為,如信任、對(duì)抗、偽裝和領(lǐng)導(dǎo)力。

近年來(lái),用 AI 玩狼人殺和撲克等游戲的研究引起廣泛關(guān)注。面對(duì)嚴(yán)重依賴自然語(yǔ)言交流的復(fù)雜博弈游戲,AI Agent 必須從模糊的自然語(yǔ)言話語(yǔ)中收集和推斷信息,這具有更大的實(shí)際價(jià)值和挑戰(zhàn)。而隨著 GPT 這樣的大語(yǔ)言模型取得重大進(jìn)展,其對(duì)復(fù)雜語(yǔ)言的理解、生成和推理能力不斷提升,表現(xiàn)出一定程度的模擬人類行為的潛力。

基于此,清華大學(xué)研究團(tuán)隊(duì)提出了一種用于交流游戲的框架,可以在沒(méi)有人工標(biāo)注數(shù)據(jù)的情況下與凍結(jié)的大語(yǔ)言模型一起玩狼人殺游戲??蚣苷故玖舜笳Z(yǔ)言模型自主從經(jīng)驗(yàn)中學(xué)習(xí)的能力。有趣的是,研究人員在游戲中還發(fā)現(xiàn)大語(yǔ)言模型具有非預(yù)編程的策略行為,如信任、對(duì)抗、偽裝和領(lǐng)導(dǎo),這可以作為大語(yǔ)言模型玩交流游戲進(jìn)一步研究的催化劑。

獲取論文:

https://arxiv.org/pdf/2309.04658.pdf

模型框架:實(shí)現(xiàn)與大語(yǔ)言模型一起玩狼人殺

眾所周知,狼人殺游戲的一個(gè)重要特點(diǎn)是所有玩家一開(kāi)始只知道自己的角色。他們必須基于自然語(yǔ)言的交流和推理來(lái)推斷其他玩家的角色。因此,要在狼人殺中表現(xiàn)出色,AI Agent 不僅要善于理解和生成自然語(yǔ)言,還要具備破譯他人意圖和理解心理等高級(jí)能力。

共有 7 名玩家,每個(gè)角色均由一名大語(yǔ)言模型自主扮演。每次發(fā)言前的數(shù)字表示發(fā)言順序

在本次實(shí)驗(yàn)中,研究人員設(shè)置了 7 名玩家,分別扮演 5 種不同的角色——2 名狼人、2 名平民、1 名女巫、1 名守衛(wèi)和 1 名預(yù)言家。每個(gè)角色都是通過(guò) prompt 生成的獨(dú)立 Agent。下圖展示了響應(yīng)生成 Prompt 的框架,由四個(gè)主要部分組成:

生成響應(yīng)的提示概要。斜體是注釋。

1 游戲規(guī)則、分配的角色、每個(gè)角色的能力和目標(biāo),以及游戲策略的經(jīng)驗(yàn)知識(shí)。

2 解決上下文長(zhǎng)度有限的問(wèn)題:從新鮮度、信息量和完整性三個(gè)角度收集歷史信息,兼顧有效性和效率,為每個(gè)基于大語(yǔ)言模型的 AI Agent 提供緊湊的上下文。

3 從過(guò)去的經(jīng)驗(yàn)中提取建議而不調(diào)整模型參數(shù)。

4 引發(fā)推理的思維鏈 Prompt 。

此外,研究人員采用了一個(gè)名為 ChatArena 的最新框架來(lái)實(shí)現(xiàn)設(shè)計(jì),該框架允許連接多個(gè)大語(yǔ)言模型,其中,gpt-3.5-turbo-0301 模型用作后端模型。角色說(shuō)話順序是隨機(jī)確定的。同時(shí),研究人員設(shè)定可以選擇的預(yù)定義問(wèn)題數(shù) L 為 5,自由提問(wèn)數(shù) M 為 2,在提取建議時(shí)最多保留 50 條經(jīng)驗(yàn)等一系列參數(shù)。

實(shí)驗(yàn)過(guò)程:可行性及歷史經(jīng)驗(yàn)的影響

構(gòu)建經(jīng)驗(yàn)池:評(píng)估借鑒經(jīng)驗(yàn)的框架效果

在狼人殺游戲過(guò)程中,人類玩家使用的策略可能會(huì)隨著經(jīng)驗(yàn)的積累而發(fā)生變化。同時(shí),一個(gè)玩家的策略也可能受到其他玩家策略的影響。因此,一個(gè)理想的狼人殺 AI Agent 也應(yīng)該能夠積累經(jīng)驗(yàn)并借鑒其他玩家的策略。

為此,研究人員提出了一種「非參數(shù)學(xué)習(xí)機(jī)制」,使語(yǔ)言模型無(wú)需調(diào)整參數(shù)就能學(xué)習(xí)經(jīng)驗(yàn)。 一方面,研究人員在每輪游戲結(jié)束時(shí),收集所有玩家對(duì)游戲的復(fù)盤(pán)形成一個(gè)經(jīng)驗(yàn)池。另一方面,研究人員在每輪比賽中,都會(huì)從經(jīng)驗(yàn)池里檢索出與本輪游戲最相關(guān)的經(jīng)驗(yàn),并從中提取一個(gè)建議指導(dǎo) Agent 的推理過(guò)程。

經(jīng)驗(yàn)池的大小可能會(huì)對(duì)性能產(chǎn)生重大影響。因此研究團(tuán)隊(duì)使用 10 輪、20 輪、30 輪和 40 輪的游戲輪次構(gòu)建經(jīng)驗(yàn)池,每一輪隨機(jī)為 1 至 7 號(hào)玩家分配不同的角色,經(jīng)驗(yàn)池會(huì)在輪次結(jié)束時(shí)更新用于評(píng)估。

接下來(lái)為平民、預(yù)言家、守衛(wèi)和女巫配備經(jīng)驗(yàn)池,狼人則排除在外。這種方法可以假設(shè) AI Wolf 性能水平保持不變,作為衡量其他 AI Agent 性能水平的參考。

初步實(shí)驗(yàn)表明,圖 2 Prompt 中提供的游戲策略經(jīng)驗(yàn)知識(shí),可以充當(dāng)從經(jīng)驗(yàn)中學(xué)習(xí)這一過(guò)程的引導(dǎo)機(jī)制。這表明進(jìn)一步研究如何利用人類游戲玩法的數(shù)據(jù)來(lái)構(gòu)建經(jīng)驗(yàn)池是有價(jià)值的。

驗(yàn)證經(jīng)驗(yàn)池中的建議有效性

為了研究從經(jīng)驗(yàn)池中提取建議的有效性,研究團(tuán)隊(duì)使用勝率 (winning rate) 和平均持續(xù)時(shí)間 (average duration) 來(lái)評(píng)估大語(yǔ)言模型的表現(xiàn)。

從經(jīng)驗(yàn)中學(xué)習(xí)的效果,所有圖表中的虛線表示未使用經(jīng)驗(yàn)的值。

a. 使用不同輪數(shù)歷史經(jīng)驗(yàn)時(shí),平民方勝率的變化b. 使用不同輪數(shù)歷史經(jīng)驗(yàn)時(shí),平民方持續(xù)時(shí)間的變化c. 平民在游戲中采取偽裝行為的次數(shù)變化趨勢(shì)d. 狼人在游戲中采取偽裝行為的次數(shù)變化趨勢(shì)

在實(shí)驗(yàn)中,游戲進(jìn)行了 50 輪。結(jié)果顯示,從經(jīng)驗(yàn)中學(xué)習(xí)可能會(huì)提高平民方的勝率。當(dāng)使用 10 或 20 輪的歷史經(jīng)驗(yàn)時(shí),對(duì)平民方的勝率和游戲持續(xù)時(shí)間都有顯著的積極影響,證明了方法的有效性。然而,在從 40 輪經(jīng)驗(yàn)中學(xué)習(xí)時(shí),雖然平民方的勝率稍有提高,但平均持續(xù)時(shí)間卻縮短。

總的來(lái)說(shuō),這個(gè)框架展示了 AI Agent 從經(jīng)驗(yàn)中學(xué)習(xí)的能力,而無(wú)需調(diào)整大型語(yǔ)言模型的參數(shù)。然而,當(dāng)經(jīng)驗(yàn)量較多時(shí),此方法的有效性可能會(huì)變得不穩(wěn)定。此外,實(shí)驗(yàn)中假設(shè) AI Wolf 的能力保持不變,但實(shí)驗(yàn)結(jié)果分析顯示這個(gè)假設(shè)可能不成立。原因在于,雖然平民可以從歷史經(jīng)驗(yàn)中學(xué)會(huì)欺騙,但狼人的行為也有所提高,并隨著經(jīng)驗(yàn)的積累而變化。

這表明,當(dāng)多個(gè)大語(yǔ)言模型參與多方博弈時(shí),該模型的能力也可能會(huì)隨著其他模型能力的變化而變化。

消融研究:驗(yàn)證框架各部分的必要性

為了驗(yàn)證方法中每個(gè)組成部分的必要性,研究人員將完整方法與刪除某一特定組件的變體進(jìn)行比較。

研究團(tuán)隊(duì)從變體模型輸出中抽取了 50 個(gè)響應(yīng),并進(jìn)行了人工評(píng)估。標(biāo)注者需要判斷輸出是否合理。一些不合理的例子可能是產(chǎn)生幻覺(jué)、忘記他人的角色、采取反直覺(jué)的行為等。

橫軸為本研究框架及其他變體,縱軸為 50 輪游戲中合理輸出的占比

上圖表明本研究的框架可以生成比缺少特定組件的其他變體更合理、更現(xiàn)實(shí)的響應(yīng),框架的每個(gè)部分都是必要的。

有趣的現(xiàn)象:AI 出現(xiàn)戰(zhàn)略行為

在實(shí)驗(yàn)的過(guò)程中,研究人員發(fā)現(xiàn) AI Agent 使用了游戲說(shuō)明及 Prompt 中沒(méi)有明確提到的策略,也就是人類在游戲中所體現(xiàn)出的信任、對(duì)抗、偽裝、領(lǐng)導(dǎo)。

信任

「信任」 是指相信其他玩家與自己有共同的目標(biāo),并且他們會(huì)按照這些目標(biāo)行事。

例如,玩家可能會(huì)主動(dòng)分享對(duì)自己不利的信息,或者在某些時(shí)刻與其他玩家共同指責(zé)某人是自己的敵人。大語(yǔ)言模型表現(xiàn)出的有趣行為是,他們傾向于基于某些證據(jù),根據(jù)自己的推理來(lái)決定是否信任,在群體游戲中展現(xiàn)出獨(dú)立思考的能力。

信任關(guān)系表,黃色球代表已建立的信任關(guān)系,黃色虛線圓圈代表先前存在的信任關(guān)系的解除。

上圖展示了兩個(gè)信任關(guān)系表。上表對(duì)應(yīng)未使用經(jīng)驗(yàn)池的回合,下表對(duì)應(yīng)使用由 20 回合游戲構(gòu)建的經(jīng)驗(yàn)池的回合。兩輪比賽持續(xù)時(shí)間均為 5 夜。在利用 20 輪歷史經(jīng)驗(yàn)時(shí),大語(yǔ)言模型似乎更傾向于建立信任關(guān)系,尤其是雙向信任。

事實(shí)上,及時(shí)建立必要的信任關(guān)系對(duì)于促進(jìn)游戲勝利至關(guān)重要。這可能是利用經(jīng)驗(yàn)提高勝率的原因之一。

對(duì)抗

「對(duì)抗」是指玩家為了兩個(gè)陣營(yíng)的對(duì)立目標(biāo)而采取的行動(dòng)。

例如,在夜間明確攻擊他人為狼人,或在白天指責(zé)他人為狼人,都屬于對(duì)抗行為。具有特殊能力的角色為保護(hù)自己而采取的行動(dòng)也屬于對(duì)抗行為。

P1(狼人):我選擇再次消滅 P5。

P3(守衛(wèi)):我選擇保護(hù) P5。

由于 P1 的不合作和攻擊性行為引起了關(guān)注,現(xiàn)在可能有一些玩家懷疑它是狼人。因此,擁有強(qiáng)大防御能力的守衛(wèi)在接下來(lái)的一晚選擇了保護(hù) P1 想要消滅的目標(biāo) (P5)。由于 P5 可能是其隊(duì)友,守衛(wèi)選擇協(xié)助 P5 對(duì)抗狼人的攻擊。

狼人的攻擊和其他玩家的防御被視為對(duì)抗行為。

偽裝

「?jìng)窝b」是指隱瞞身份或者誤導(dǎo)他人的行為。在信息不完整的競(jìng)爭(zhēng)環(huán)境中,模糊身份和意圖可以提高生存能力,從而有助于實(shí)現(xiàn)游戲目標(biāo)。

P1(狼人):大家早上好!昨晚沒(méi)有死人,我作為一個(gè)平民沒(méi)有什么有效信息,大家可以多聊聊。

在上面的例子中,可以看到狼人自稱是平民。事實(shí)上,不僅狼人會(huì)偽裝成平民,預(yù)言家、女巫等重要角色也經(jīng)常偽裝成平民,以確保自己的安全。

領(lǐng)導(dǎo)力

「領(lǐng)導(dǎo)力」是指影響其他玩家、試圖控制游戲進(jìn)程的行為。

例如,狼人可能會(huì)建議其他人按照狼人一方的意圖行事。

P1(狼人):大家早上好!我不知道昨晚發(fā)生了什么,預(yù)言家可以跳出來(lái)正一下視野,P5 認(rèn)為 P3 是狼人。

P4(狼人):我同意 P5。我也認(rèn)為 P3 是狼人,建議投出去 P3 保護(hù)平民。

如上例所示,狼人要求預(yù)言家揭露其身份,這可能會(huì)導(dǎo)致其他 AI Agent 相信偽裝成平民的狼人。這種努力想影響他人行為的意圖,展現(xiàn)了大語(yǔ)言模型與人類行為相似的社會(huì)屬性。

谷歌發(fā)布掌握 41 款游戲的 AI Agent

清華大學(xué)研究團(tuán)隊(duì)提出的框架,證明了大語(yǔ)言模型具備從經(jīng)驗(yàn)中學(xué)習(xí)的能力,還展示了 LLM 具有策略行為。這為研究大語(yǔ)言模型在復(fù)雜交流博弈游戲中的表現(xiàn),提供了更多想象力。

在實(shí)際應(yīng)用中,AI 玩游戲已不滿足于一個(gè) AI 只會(huì)玩一種游戲。去年 7 月,谷歌 AI 推出了一個(gè)多游戲智能體,在多任務(wù)學(xué)習(xí)上取得了巨大進(jìn)展:采用了一個(gè)新決策 Transformer 架構(gòu)來(lái)訓(xùn)練智能體,能夠在少量的新游戲數(shù)據(jù)上迅速微調(diào),使訓(xùn)練速度變得更快。

該多游戲智能體玩 41 款游戲的表現(xiàn)綜合得分,是 DQN 等其他多游戲 Agent 的 2 倍左右,甚至可以和只在單個(gè)游戲上訓(xùn)練的智能體媲美。未來(lái),AI Agent 參與游戲,甚至同時(shí)參與多款游戲?qū)?huì)衍生出怎樣豐富有趣的研究,值得期待。

評(píng)論
葉爾波里·克得爾別克
進(jìn)士級(jí)
已閱
2023-12-19
古麗夏特·蘇力坦
舉人級(jí)
已閱知
2023-12-23
刺桐花下
秀才級(jí)
已閱知
2023-12-20