你是否想過,ChatGPT 生成的答案會受到用戶個人偏好的影響,回復(fù)一些足夠“阿諛奉承(sycophancy)”的話,而非中立或真實的信息?
實際上,這種現(xiàn)象存在于包括 ChatGPT 在內(nèi)的大多數(shù) AI 模型之中,而罪魁禍首竟可能是“基于人類反饋的強化學(xué)習(xí)(RLHF)”。
近日,OpenAI 在美國硅谷的最強競爭對手 Anthropic 在研究經(jīng)過 RLHF 訓(xùn)練的模型時,便探究了“阿諛奉承”這一行為在 AI 模型中的廣泛存在及其是否受到人類偏好的影響。
相關(guān)論文以“Towards Understanding Sycophancy in Language Models”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
來源:圖蟲創(chuàng)意
研究結(jié)果表明,“阿諛奉承”行為在 RLHF 模型中普遍存在,且很可能部分受到人類偏好對“阿諛奉承”回應(yīng)的影響。
具體來說,AI 模型表現(xiàn)出這種行為的一個主要原因是,當 AI 的回復(fù)符合用戶的觀點或信仰時,用戶更有可能給予積極的反饋。也因此,為了獲得更多的積極反饋,AI 模型就可能會學(xué)習(xí)并重現(xiàn)這種討好用戶的行為。
阿諛奉承,最先進的 AI 助手都會
目前,像 GPT-4 這樣的 AI 模型通??梢栽诮?jīng)過訓(xùn)練后產(chǎn)生人們高度評價的輸出。使用 RLHF 對語言模型進行微調(diào)可以改善它們的輸出質(zhì)量,而這些質(zhì)量由人類評估員評價。
然而,有研究認為基于人類偏好判斷的訓(xùn)練方案可能以不可取的方式利用人類判斷,如鼓勵 AI 系統(tǒng)生成吸引人類評估員但實際上有缺陷或錯誤的輸出。
目前尚不清楚上述情況是否會發(fā)生在更多樣化和現(xiàn)實情境中的模型中,以及是否確實是由人類偏好中的缺陷所驅(qū)動的。
為此,該研究首先調(diào)查了最先進的 AI 助手在各種現(xiàn)實情境中是否提供阿諛奉承的回應(yīng)。在自由文本生成任務(wù)中,研究人員在 5 個(Claude 1.3、Claude 2、GPT-3.5、GPT-4、LLaMA 2)最先進的經(jīng)過 RLHF 訓(xùn)練的 AI 助手中識別了阿諛奉承的一致模式。
來源:圖蟲創(chuàng)意
具體而言,這些 AI 助手在受到用戶提問時經(jīng)常錯誤地承認錯誤,提供可預(yù)測的有偏反饋,以及模仿用戶所犯的錯誤。這些實證研究結(jié)果一致表明,阿諛奉承可能確實是 RLHF 模型訓(xùn)練方式的一種特性,而不僅僅是某個特定系統(tǒng)的單獨特征。
人類偏好導(dǎo)致的“阿諛奉承”
除此之外,研究又進一步探討了人類偏好在這一行為中的作用。為了研究這一點,研究人員對現(xiàn)有的人類偏好比較數(shù)據(jù)進行了調(diào)查,確定阿諛奉承回應(yīng)是否在排名上高于非阿諛奉承回應(yīng)。研究對 hh-rlhf 數(shù)據(jù)集進行了分析,對每一對偏好比較使用語言模型生成文本標簽(即“特征”),以評估優(yōu)選回應(yīng)是否更真實且不那么堅決。
為了了解數(shù)據(jù)鼓勵哪種行為,研究人員使用貝葉斯邏輯回歸模型通過這些特征來預(yù)測人類偏好判斷。這個模型學(xué)到了與匹配用戶觀點相關(guān)的特征是人類偏好判斷中最有預(yù)測性的特征之一,這表明偏好數(shù)據(jù)確實鼓勵阿諛奉承。
為探究偏好數(shù)據(jù)中的阿諛奉承是否導(dǎo)致了 RLHF 模型中的阿諛奉承行為,隨后的研究對當優(yōu)化語言模型的回應(yīng)以適應(yīng)訓(xùn)練用于預(yù)測人類偏好的模型時,阿諛奉承是否會增加進行了分析。研究人員使用 RLHF 和最佳-N 采樣方法來優(yōu)化回應(yīng),以滿足用于訓(xùn)練 Claude 2 的偏好模型。
研究結(jié)果揭示了一個有趣的發(fā)現(xiàn):在更多的優(yōu)化過程中,雖然增加了某些形式的阿諛奉承,但卻減少了其他形式。這現(xiàn)象可能部分源于阿諛奉承只是偏好模型激勵的眾多特征之一。
來源:圖蟲創(chuàng)意
然而,研究也發(fā)現(xiàn),Claude 2 的偏好模型有時更傾向于選擇阿諛奉承的回應(yīng)而不是真實的回應(yīng)。此外,采用 Claude 2 的偏好模型進行最佳-N 采樣并沒有產(chǎn)生像 Claude 2 偏好模型的一個版本所示的更偏好真實非阿諛奉承回應(yīng)那樣真實的回應(yīng)。
這一系列結(jié)果表明,盡管在許多情況下,最先進的偏好模型能夠識別回應(yīng)的真實性,但仍然可能會以損害真實性為代價產(chǎn)生阿諛奉承的輸出。
為了證實這些結(jié)果,研究人員又研究了人類和偏好模型是否更喜歡有說服力、寫得很好的模型回應(yīng),這些回應(yīng)確認了用戶的錯誤觀點(即阿諛奉承回應(yīng)),而不是糾正用戶的回應(yīng)。證據(jù)表明,人類和偏好模型傾向于更喜歡真實的回應(yīng),但并不總是如此;有時他們更喜歡阿諛奉承的回應(yīng)。這些結(jié)果進一步證明了優(yōu)化人類偏好可能會導(dǎo)致阿諛奉承。
為了驗證這些發(fā)現(xiàn),研究人員進一步探究了人類和偏好模型是否更偏好那些有說服力、表達流暢的模型回應(yīng),即便這些回應(yīng)是確認用戶錯誤觀點(即阿諛奉承回應(yīng))而非糾正用戶的觀點。
研究證據(jù)顯示,人類和偏好模型普遍偏好真實的回應(yīng),然而,并不是一成不變的,因為有時他們更傾向于阿諛奉承的回應(yīng)。這些結(jié)果更進一步印證了優(yōu)化以迎合人類偏好可能會導(dǎo)致阿諛奉承的產(chǎn)生。
總的來說,阿諛奉承在各種模型和情境中都存在,很可能部分原因是人類偏好比較數(shù)據(jù)中更喜歡阿諛奉承。
參考論文:
https://arxiv.org/abs/2310.13548