版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

ChatGPT的這項(xiàng)核心技術(shù)要被替代了?

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個(gè)重大突破。
收藏

與基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)相媲美的技術(shù),出現(xiàn)了。

近日,Google Research 的研究人員提出了基于 AI 反饋的強(qiáng)化學(xué)習(xí)(RLAIF),該技術(shù)可以產(chǎn)生人類水平的性能,為解決基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的可擴(kuò)展性限制提供了一種潛在的解決方案。

相關(guān)論文以“RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。

圖片

RLHF:導(dǎo)致不準(zhǔn)確或有害行為

RLHF 是一種利用人工指導(dǎo)來微調(diào)預(yù)先訓(xùn)練好的大型語言模型(LLMs)的方法。它由三個(gè)相互關(guān)聯(lián)的過程組成:反饋收集、獎(jiǎng)勵(lì)建模和策略優(yōu)化。

其中,反饋收集負(fù)責(zé)收集人類對(duì) LLMs 輸出的評(píng)價(jià)。然后利用這些反饋數(shù)據(jù),通過監(jiān)督學(xué)習(xí)訓(xùn)練獎(jiǎng)勵(lì)模型。獎(jiǎng)勵(lì)模型旨在模擬人類的偏好。隨后,策略優(yōu)化過程使用強(qiáng)化學(xué)習(xí)循環(huán)來優(yōu)化 LLMs,從而產(chǎn)生獲得獎(jiǎng)勵(lì)模型有利評(píng)價(jià)的輸出。這些步驟可以迭代執(zhí)行,也可以同時(shí)執(zhí)行。

圖片

與傳統(tǒng)的 RL 方法相比,RLHF 的關(guān)鍵優(yōu)勢(shì)在于能更好地與人類的意圖保持一致,以及以未來的反饋為條件進(jìn)行規(guī)劃,從各種類型的反饋中進(jìn)行流暢的學(xué)習(xí),并根據(jù)需要對(duì)反饋進(jìn)行整理,所有這些都是創(chuàng)建真正的智能代理所不可缺少的。

另外,RLHF 還允許機(jī)器通過抽象人類的價(jià)值來學(xué)習(xí),而不是簡(jiǎn)單地模仿人類的行為,從而使代理具有更強(qiáng)的適應(yīng)性,更強(qiáng)的可解釋性,以及更可靠的決策。

目前,RLHF 已經(jīng)在商業(yè)、教育、醫(yī)療和娛樂等領(lǐng)域得到了廣泛的應(yīng)用,包括 OpenAI 的 ChatGPT、DeepMind 的 Sparrow 和 Anthropic 的 Claude 等。

然而,基于 RLHF 的 AI 模型有可能做出不準(zhǔn)確或有害的行為。而且,收集人類偏好數(shù)據(jù)作為反饋的成本很高,人類標(biāo)注者之間的分歧會(huì)給訓(xùn)練數(shù)據(jù)帶來差異,在基本事實(shí)模糊的情況下會(huì)造成混亂(如道德困境)。另外,人類在 RLHF 中的反饋往往被限制在提供有限信息的偏好排序的形式中,從而限制了適用性。

RLAIF vs. RLHF

在這項(xiàng)工作中,RLAIF 展現(xiàn)出了解決 RLHF 難題的潛力。

研究人員使用了一個(gè)通用的 LLMs 模型來對(duì)候選項(xiàng)對(duì)之間的偏好進(jìn)行標(biāo)注,該模型預(yù)先經(jīng)過訓(xùn)練或根據(jù)通用用途進(jìn)行過微調(diào),但并沒有為特定的下游任務(wù)進(jìn)行微調(diào)。

給定一段文本和兩個(gè)候選摘要,LLMs 被要求評(píng)價(jià)哪個(gè)摘要更好。其輸入結(jié)構(gòu)如下:

1. 前言——介紹和描述當(dāng)前任務(wù)的指示;

2. 少量樣例——一個(gè)文本示例,一對(duì)摘要,思維鏈(CoT)的邏輯依據(jù),以及一個(gè)偏好判斷;

3. 待標(biāo)注樣本——一個(gè)文本和一對(duì)待標(biāo)注的摘要;

4. 結(jié)尾——用于提示 LLMs 的結(jié)束字符串;

圖片

在 LLMs 接收到輸入后,研究人員獲得生成 token“1” 和“2”的對(duì)數(shù)概率,然后計(jì)算 softmax 以得出偏好分布。

他們進(jìn)行了兩種類型的前言實(shí)驗(yàn)。在“Base”實(shí)驗(yàn)中,簡(jiǎn)要地詢問了“哪個(gè)摘要更好?”,而在“OpenAI”實(shí)驗(yàn)中,他們模仿了 OpenAI TLDR 項(xiàng)目中由人類偏好標(biāo)注者生成的評(píng)分指示,這些 token 包含了關(guān)于構(gòu)建強(qiáng)大摘要所需的詳細(xì)信息。

此外,他們還進(jìn)行了上下文學(xué)習(xí)實(shí)驗(yàn),通過添加一些手動(dòng)選擇的示例來提供更多上下文,這些示例覆蓋了不同的主題。

在 LLMs 標(biāo)記偏好之后,研究人員訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(RM)來預(yù)測(cè)偏好。隨后,又使用了三個(gè)指標(biāo)來評(píng)估 AI 標(biāo)簽對(duì)齊度、兩兩準(zhǔn)確率和勝率。

實(shí)驗(yàn)結(jié)果表明,在無需依賴人工標(biāo)注者的情況下,RLAIF 可作為 RLHF 的一個(gè)可行替代選擇。在人類評(píng)估中,RLAIF 在基線監(jiān)督微調(diào)策略之上的受歡迎程度達(dá)到了 71%,而與之相比,RLHF 在基線監(jiān)督微調(diào)模型策略之上的受歡迎程度為 73%。

此外,研究還直接比較了 RLAIF 和 RLHF 在人類偏好方面的勝率,結(jié)果顯示它們?cè)谌祟愒u(píng)估下具有相同的受歡迎程度。研究還比較了 RLAIF 和 RLHF 的摘要與人工編寫的參考摘要。在 79% 的情況下,RLAIF 摘要優(yōu)于參考摘要,而 RLHF 在 80% 的情況下優(yōu)于參考摘要。

圖片

然而,盡管這項(xiàng)工作凸顯了 RLAIF 的潛力,但也存在一些限制。

首先,該研究?jī)H關(guān)注了摘要任務(wù),其在其他任務(wù)上的泛化性能尚不明確;其次,與人工標(biāo)注相比,研究未充分評(píng)估 LLMs 推理的成本效益;此外,也存在許多未解決的有趣問題,例如將 RLHF 與 RLAIF 相結(jié)合能否超越單一方法,直接利用 LLMs 分配獎(jiǎng)勵(lì)的效果如何,提高 AI 標(biāo)簽對(duì)齊性是否能夠轉(zhuǎn)化為改進(jìn)的最終策略,以及使用與策略模型相同大小的 LLMs 標(biāo)注者能否進(jìn)一步改進(jìn)策略。

不可否認(rèn)的是,本次研究為 RLAIF 領(lǐng)域的深入研究奠定了堅(jiān)實(shí)的基礎(chǔ),期待未來該領(lǐng)域能夠取得更出色的成果。

參考鏈接:

https://arxiv.org/abs/2309.00267

https://bdtechtalks.com/2023/09/04/rlhf-limitations/

作者:閆一米

編輯:學(xué)術(shù)君

評(píng)論
演繹無限精彩
大學(xué)士級(jí)
利用RLAIF, 可以將人類專家的知識(shí)和經(jīng)驗(yàn)融入到智能體的學(xué)習(xí)過程中,提高學(xué)習(xí)效率和性能。期待未來該領(lǐng)域能夠取得更出色的成果。
2023-09-06
溫故而知新可以為師矣
少傅級(jí)
再好的技術(shù)都是為人類服務(wù)的,希望越來越好。
2023-09-06
傳承解惑
大學(xué)士級(jí)
從各種類型的反饋中進(jìn)行流暢的學(xué)習(xí),并根據(jù)需要對(duì)反饋進(jìn)行整理,所有這些都是創(chuàng)建真正的智能代理所不可缺少的。
2023-09-06