版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

機(jī)器人學(xué)會(huì)轉(zhuǎn)筆、盤(pán)核桃了!GPT-4加持,任務(wù)越復(fù)雜,表現(xiàn)越優(yōu)秀

學(xué)術(shù)頭條
一起見(jiàn)證人類探索征途上的每一個(gè)重大突破。
收藏

家人們,繼人工智能(AI)攻占象棋、圍棋、Dota之后,轉(zhuǎn)筆這一技能也被 AI 機(jī)器人學(xué)會(huì)了。

上面這個(gè)筆轉(zhuǎn)的賊溜的機(jī)器人,得益于名叫Eureka的智能體(Agent),是來(lái)自英偉達(dá)、賓夕法尼亞大學(xué)、加州理工學(xué)院和得克薩斯大學(xué)奧斯汀分校的一項(xiàng)研究。

得Eureka“指點(diǎn)”后的機(jī)器人還可以打開(kāi)抽屜和柜子、扔球和接球,或者使用剪刀。據(jù)英偉達(dá)介紹,Eureka有10種不同的類型,可執(zhí)行29種不同的任務(wù)。

要知道在之前,單就轉(zhuǎn)筆這一功能,僅靠人類專家手工編程,是無(wú)法如此順滑的實(shí)現(xiàn)的。

機(jī)器人盤(pán)核桃

而Eureka 能夠自主編寫(xiě)?yīng)剟?lì)算法來(lái)訓(xùn)練機(jī)器人,且碼力強(qiáng)勁:自編的獎(jiǎng)勵(lì)程序在 83% 的任務(wù)中超越了人類專家,能使機(jī)器人的性能平均提升52%。

Eureka開(kāi)創(chuàng)了一種從人類反饋中無(wú)梯度學(xué)習(xí)的新途徑,它能夠輕松吸收人類提供的獎(jiǎng)勵(lì)和文字反饋,從而進(jìn)一步完善自己的獎(jiǎng)勵(lì)生成機(jī)制。

具體而言,Eureka 利用了 OpenAI 的 GPT-4 來(lái)編寫(xiě)用于機(jī)器人的試錯(cuò)學(xué)習(xí)的獎(jiǎng)勵(lì)程序。這意味著該系統(tǒng)并不依賴于人類特定任務(wù)的提示或預(yù)設(shè)的獎(jiǎng)勵(lì)模式。

Eureka 通過(guò)在 Isaac Gym 中使用 GPU 加速的仿真,能夠快速評(píng)估大量候選獎(jiǎng)勵(lì)的優(yōu)劣,從而實(shí)現(xiàn)更有效率的訓(xùn)練。接著,Eureka 會(huì)生成訓(xùn)練結(jié)果的關(guān)鍵統(tǒng)計(jì)信息摘要,并指導(dǎo) LLM(Language Model,語(yǔ)言模型)改進(jìn)獎(jiǎng)勵(lì)函數(shù)的生成。通過(guò)這種方式,AI 智能體能夠獨(dú)立地改善對(duì)機(jī)器人的指令。

Eureka的框架

研究人員還發(fā)現(xiàn),任務(wù)越復(fù)雜,GPT-4 的指令就越能優(yōu)于所謂的"獎(jiǎng)勵(lì)工程師"的人類指令。參與該研究的研究員甚至稱 Eureka 為“超人類獎(jiǎng)勵(lì)工程師”。

ureka 成功地彌補(bǔ)了高層推理(編碼)和低層運(yùn)動(dòng)控制之間的鴻溝。其采用了一種被稱為 "混合梯度架構(gòu)":一個(gè)純推理的黑盒子 LLM(Language Model,語(yǔ)言模型)引導(dǎo)一個(gè)可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。在這個(gè)架構(gòu)中,外層循環(huán)運(yùn)行 GPT-4 來(lái)優(yōu)化獎(jiǎng)勵(lì)函數(shù)(無(wú)梯度),而內(nèi)層循環(huán)則運(yùn)行強(qiáng)化學(xué)習(xí)以訓(xùn)練機(jī)器人的控制器(基于梯度)。——NVIDIA的高級(jí)研究科學(xué)家Linxi "Jim" Fan

Eureka 可以整合人類的反饋,以便更好地調(diào)整獎(jiǎng)勵(lì),使其更符合開(kāi)發(fā)者的期望。Nvidia 把這個(gè)過(guò)程稱為"in-context RLHF"(從人類反饋中進(jìn)行上下文學(xué)習(xí))。

值得注意的是,Nvidia 的研究團(tuán)隊(duì)已經(jīng)開(kāi)源了 Eureka 的 AI 算法庫(kù)。這將使得個(gè)人和機(jī)構(gòu)能夠通過(guò) Nvidia Isaac Gym 來(lái)探索和實(shí)驗(yàn)這些算法。Isaac Gym 是建立在 Nvidia Omniverse 平臺(tái)上的,這是一個(gè)基于 Open USD 框架用于創(chuàng)建 3D 工具和應(yīng)用程序的開(kāi)發(fā)框架。

論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

項(xiàng)目鏈接:https://eureka-research.github.io/

代碼鏈接:https://github.com/eureka-research/Eureka

如何評(píng)價(jià)?

在過(guò)去的十年中,強(qiáng)化學(xué)習(xí)取得了巨大的成功,但我們必須承認(rèn)其中仍存在持續(xù)的挑戰(zhàn)。之前雖然有嘗試引入類似的技術(shù),但與使用語(yǔ)言模型(LLM)來(lái)輔助獎(jiǎng)勵(lì)設(shè)計(jì)的 L2R(Learning to Reward)相比,Eureka 更為突出,因?yàn)樗颂囟ㄈ蝿?wù)提示的需要。Eureka 之所以能比 L2R 更出色,是因?yàn)樗軌騽?chuàng)建自由表達(dá)的獎(jiǎng)勵(lì)算法,并利用環(huán)境源代碼作為背景信息。

英偉達(dá)的研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)調(diào)查,以探索在使用人類獎(jiǎng)勵(lì)函數(shù)啟動(dòng)時(shí),是否能提供一些優(yōu)勢(shì)。實(shí)驗(yàn)的目的是想看看是否你們能順利地用初始 Eureka 迭代的輸出替代原始的人類獎(jiǎng)勵(lì)函數(shù)。

圖片

在測(cè)試中,英偉達(dá)的研究團(tuán)隊(duì)在每個(gè)任務(wù)的情境下,使用相同的強(qiáng)化學(xué)習(xí)算法和相同的超參數(shù)對(duì)所有最終獎(jiǎng)勵(lì)函數(shù)進(jìn)行了優(yōu)化。為了測(cè)試這些特定任務(wù)的超參數(shù)是否經(jīng)過(guò)良好調(diào)整以確保人工設(shè)計(jì)的獎(jiǎng)勵(lì)的有效性,他們采用了經(jīng)過(guò)充分調(diào)整的近端策略優(yōu)化(PPO)實(shí)現(xiàn),這個(gè)實(shí)現(xiàn)基于之前的工作,沒(méi)有進(jìn)行任何修改。對(duì)于每個(gè)獎(jiǎng)勵(lì),研究人員進(jìn)行了五次獨(dú)立的 PPO 訓(xùn)練運(yùn)行,并報(bào)告了策略檢查點(diǎn)達(dá)到的最大任務(wù)指標(biāo)值的平均值,作為獎(jiǎng)勵(lì)性能的度量。

結(jié)果顯示:人類設(shè)計(jì)者通常對(duì)相關(guān)狀態(tài)變量有很好的理解,但在設(shè)計(jì)有效獎(jiǎng)勵(lì)方面可能缺乏一定的熟練度。

Nvidia 的這項(xiàng)開(kāi)創(chuàng)性研究在強(qiáng)化學(xué)習(xí)和獎(jiǎng)勵(lì)設(shè)計(jì)領(lǐng)域開(kāi)辟了新的疆界。他們的通用獎(jiǎng)勵(lì)設(shè)計(jì)算法 Eureka 利用了大型語(yǔ)言模型和上下文進(jìn)化搜索的力量,能夠在廣泛的機(jī)器人任務(wù)領(lǐng)域生成人類水平的獎(jiǎng)勵(lì),而無(wú)需特定任務(wù)提示或人工干預(yù),這在很大程度上改變了我們對(duì) AI 和機(jī)器學(xué)習(xí)的理解。

評(píng)論
坦 蕩 蕩
少師級(jí)
機(jī)器人越來(lái)越智能,轉(zhuǎn)筆這一技能也被 AI 機(jī)器人學(xué)會(huì)了,通過(guò)不斷的學(xué)習(xí)Ai應(yīng)用會(huì)越來(lái)越廣。
2023-10-24
演繹無(wú)限精彩
大學(xué)士級(jí)
通過(guò)GPT-4加持的獎(jiǎng)勵(lì)設(shè)計(jì)算法,產(chǎn)生的獎(jiǎng)勵(lì)可以用于通過(guò)強(qiáng)化學(xué)習(xí)來(lái)讓機(jī)器人獲得復(fù)雜的具體技能,這在很大程度上改變了我們對(duì) AI 和機(jī)器學(xué)習(xí)的理解。
2023-10-24
smxh676
大學(xué)士級(jí)
人類設(shè)計(jì)者通常對(duì)相關(guān)狀態(tài)變量有很好的理解,但在設(shè)計(jì)有效獎(jiǎng)勵(lì)方面可能缺乏一定的熟練度。
2023-10-24