這一次,AI 又擊敗了人類。
由華為云人工智能領(lǐng)域 CTO 戴宗宏、北京大學(xué)人工智能研究院助理教授楊耀東領(lǐng)導(dǎo)的研究團(tuán)隊(duì),開發(fā)了一種能夠在象棋對(duì)局中以 99.41% 勝率碾壓人類對(duì)手的算法——JiangJun(音譯為“將軍”)。
相關(guān)研究論文以“JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player Zero-Sum Games”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
將人類玩家作為對(duì)手,不斷試錯(cuò)、迭代,是當(dāng)前基于強(qiáng)化學(xué)習(xí)的 AI 智能體的普遍進(jìn)化方式。近年來(lái),考慮到現(xiàn)實(shí)場(chǎng)景中通常會(huì)同時(shí)存在多個(gè)智能體,研究人員將目光由單智能體領(lǐng)域延伸到了多智能體。
事實(shí)上,多智能體強(qiáng)化學(xué)習(xí)在多種游戲領(lǐng)域中也確實(shí)取得了顯著的成功,在捉迷藏(Steam 的一款游戲)、圍棋、星際爭(zhēng)霸II、刀塔2 和軍棋等游戲中已經(jīng)得到印證。
然而,像 AlphaZero 和 AlphaGo 這樣專注于對(duì)手近期表現(xiàn)進(jìn)行訓(xùn)練的算法,在非傳遞性結(jié)構(gòu)的博弈中可能無(wú)法穩(wěn)定地獲得勝利或達(dá)到理想的狀態(tài)。盡管這個(gè)問(wèn)題在不完全信息博弈中得到了深入研究,但在完全信息博弈中的研究相對(duì)較少。
完全信息博弈:每一位參與者都擁有所有其他參與者的特征、策略及得益函數(shù)等方面的準(zhǔn)確信息的博弈,比如象棋。
不完全信息博弈:至少有一名參與者對(duì)于以上內(nèi)容不完全了解,如西洋陸軍棋。
目前,克服完全信息博弈中的非傳遞性問(wèn)題仍然是一個(gè)未解決的研究問(wèn)題。近期的研究重點(diǎn)集中在采用策略空間響應(yīng)預(yù)言者(PSRO)算法來(lái)尋找納什均衡,但是這些方法在完全信息博弈中尚未得到探究。
象棋的易接近性使其成為探索棋盤游戲和非傳遞性幾何格局的絕佳對(duì)象。該研究深入探討了象棋的復(fù)雜幾何特性,利用超過(guò) 10000 場(chǎng)人類游戲?qū)值拇笠?guī)模數(shù)據(jù)集,揭示了象棋在傳遞性中間區(qū)域的顯著非傳遞性。
為了解決非傳遞性問(wèn)題,研究人員提出了 JiangJun 算法,與 AlphaZero 的自我對(duì)弈策略不同,該算法利用納什響應(yīng)來(lái)選擇對(duì)手。
JiangJun 算法包括兩個(gè)基本模塊:MCTS 演算器(MCTS Actor)和人口生成器(Populationer)。這些組件共同利用蒙特卡洛樹搜索(MCTS)技術(shù)在玩家群體內(nèi)趨近納什均衡。
JiangJun 算法的效力在一系列指標(biāo)中得到了全面評(píng)估。研究人員提出了一種訓(xùn)練框架,該框架有效地利用了華為云 ModelArt 平臺(tái)上高達(dá) 90 個(gè) V100 GPU 的計(jì)算能力,將 JiangJun 算法訓(xùn)練至大師級(jí)水平。
多重指標(biāo),包括相對(duì)人口表現(xiàn)、納什分布可視化以及主要兩個(gè)嵌入維度的低維游戲景觀可視化,共同證實(shí)了 JiangJun 算法在解決象棋非傳遞性問(wèn)題方面的熟練程度。
另外,JiangJun 算法在勝率上顯著超過(guò)其當(dāng)代算法,與標(biāo)準(zhǔn)的 AlphaZero 象棋和行為克隆象棋相比,其勝率分別超過(guò) 85% 和 96.40%。在可剝削性評(píng)估中,JiangJun 算法(近似最佳響應(yīng)的勝率為8.41%)與標(biāo)準(zhǔn)的 AlphaZero 象棋算法(25.53%)相比,明顯更接近最優(yōu)策略。
此外,研究人員在微信平臺(tái)上設(shè)計(jì)了一個(gè)象棋小程序,在六個(gè)月的時(shí)間內(nèi),匯總了超過(guò) 7000 局 JiangJun 算法與人類對(duì)手之間的對(duì)局記錄。據(jù)對(duì)局?jǐn)?shù)據(jù)顯示,JiangJun 算法以驚人的 99.41% 勝率擊敗人類對(duì)手。
除了接近 100% 的驚人勝率外,各種殘局的案例研究顯示,JiangJun 算法在靈活應(yīng)對(duì)象棋殘局復(fù)雜性方面也有很強(qiáng)的能力。
JiangJun 算法的問(wèn)世,標(biāo)志著 AI 在象棋領(lǐng)域取得了一次令人驚嘆的成就。通過(guò)解決完全信息博弈中的非傳遞性問(wèn)題,研究團(tuán)隊(duì)成功地引入了納什響應(yīng)和蒙特卡洛樹搜索技術(shù),為象棋這一博弈領(lǐng)域帶來(lái)了全新的思維方式。這個(gè)算法不僅實(shí)現(xiàn)了驚人的勝率,更彰顯了 AI 在處理復(fù)雜、不確定性問(wèn)題上的強(qiáng)大能力。
參考鏈接:
https://arxiv.org/abs/2308.04719
https://openreview.net/forum?id=MMsyqXIJuk
https://sites.google.com/view/jiangjun-site/
作者:Hazel Yan