【編者按】人類科學(xué)家、企業(yè)家一直在按照人類的思考方式訓(xùn)練人工智能(AI)系統(tǒng),希望機(jī)器可以像人類一樣學(xué)習(xí),并為人類解決現(xiàn)實(shí)生活中的問題。
然而,在 Google DeepMind 研究科學(xué)家 Will Whitney 看來,把模型當(dāng)作一個人,會極大地限制我們與它互動的思維方式,阻礙我們探索大模型的全部潛力。在一篇題為“Computing inside an AI”的文章中,Whitney 分析了“模型即人”(model-as-person)的不足,并提出了“模型即計算機(jī)”(model-as-computer)的概念。
他以構(gòu)建網(wǎng)站為例比較了二者的不同:在“模型即人”的隱喻下,大模型被視為一個承包商或合作者,會在一長串越來越吹毛求疵的需求中不斷“修改”網(wǎng)站的樣式、內(nèi)容和功能,通信成本較高;而“模型即計算機(jī)”的交互方式不同,大模型不會直接構(gòu)建網(wǎng)站,而是提供一個「生成式用戶界面」,實(shí)時互動、按需生成,幫助你更有效地交流,在更短的時間內(nèi)對最終產(chǎn)品進(jìn)行更多的控制權(quán)。
部分觀點(diǎn)如下:
“模型即人”會在用戶和模型之間制造距離,就像兩個人之間的溝通鴻溝一樣,可以縮小,但永遠(yuǎn)無法完全彌合。有了通信的開銷,當(dāng)“模型即人”系統(tǒng)可以獨(dú)立完成一整塊工作時,它們才是最有用的。一個好的工具會告訴人類它可以被用來做什么,直接操作比用文字編寫請求更快捷。在“模型即計算機(jī)”的隱喻下,“計算機(jī)應(yīng)用程序”將是模型向我們展示自己的一種方式,你可以在更短的時間內(nèi)對最終產(chǎn)品進(jìn)行更多的控制權(quán)。 生成式用戶界面有可能完全取代操作系統(tǒng),根據(jù)需要即時生成并管理界面和窗口。
學(xué)術(shù)頭條在不改變原文大意的情況下,對部分訪談內(nèi)容做了精編。內(nèi)容如下:
自 ChatGPT 推出以來,業(yè)內(nèi)在人工智能(AI)領(lǐng)域的兩個方向上的探索進(jìn)入了高潮。
第一個方向是技術(shù)能力。我們能訓(xùn)練出多大的模型?它能多好地回答 SAT(學(xué)術(shù)評估測試)問題?我們?yōu)樗峁┓?wù)的效率如何?
第二個方向是交互設(shè)計。我們?nèi)绾闻c模型交流?我們?nèi)绾卫盟M(jìn)行有用的工作?我們用什么隱喻(metaphor)來推理它?
第一個方向受到廣泛關(guān)注和大量投資,這是有道理的:技術(shù)能力的進(jìn)步是一切可能應(yīng)用的基礎(chǔ)。但是,第二個方向?qū)υ擃I(lǐng)域同樣至關(guān)重要,而且存在著巨大的未知數(shù)。我們進(jìn)入大模型時代不過幾年時間。我們有多大可能已經(jīng)找到了使用它們的最佳方法?
我提出了一種新的交互模式,即模型扮演計算機(jī)(如手機(jī))應(yīng)用程序的角色:提供圖形界面、解釋用戶輸入并更新其狀態(tài)。在這種模式下,人工智能不再是代表人類使用計算機(jī)的“智能體”,而是可以為我們提供更豐富、更強(qiáng)大的計算環(huán)境。
交互的隱喻
交互的核心是隱喻,它引導(dǎo)用戶對系統(tǒng)的預(yù)期。早期的計算將“桌面”、“打字機(jī)”、“電子表格”和“信件”等隱喻轉(zhuǎn)化為數(shù)字等價物,讓用戶對自己的行為進(jìn)行推理。你可以把東西放在桌面上,然后再回來看;你需要一個地址才能寄信。隨著我們對這些設(shè)備的文化知識的發(fā)展,對這些特殊隱喻的需求消失了,隨之消失的還有強(qiáng)化這些隱喻的擬物化界面設(shè)計。就像垃圾桶或鉛筆一樣,計算機(jī)現(xiàn)在也是一種隱喻。
如今,大模型的主流隱喻是“模型即人”(model-as-person)。這是一個有效的隱喻,因為人具有廣泛的能力,而我們對這些能力有著強(qiáng)烈的直覺。這意味著我們可以與模型對話,向它提問;模型可以與我們合作完成一份文檔或一段代碼;我們可以給它一個任務(wù),讓它自己去完成。
然而,把模型當(dāng)作一個人,卻極大地限制了我們與它互動的思維方式。人與人之間的互動本來就是緩慢而線性的,受限于說話的帶寬和輪流發(fā)言的特性。我們都有過這樣的經(jīng)歷,在對話中交流復(fù)雜的想法既困難又有信息丟失。當(dāng)我們追求精確時,我們會求助于工具,使用直接操作和高帶寬可視化界面來制作圖表、編寫代碼和設(shè)計 CAD 模型。由于我們將模型概念化為人,我們通過緩慢的對話來使用它們,盡管它們完全能夠接受快速的直接輸入并產(chǎn)生可視化結(jié)果。我們所使用的隱喻限制了我們所構(gòu)建的體驗,而“模型即人”正在阻礙我們探索大模型的全部潛力。
對于許多用例,尤其是生產(chǎn)性工作,我更相信另一種隱喻:“模型即計算機(jī)”(model-as-computer)。
把人工智能當(dāng)作計算機(jī)使用
在“模型即計算機(jī)”的隱喻下,我們將根據(jù)對計算機(jī)應(yīng)用程序(無論是臺式機(jī)、平板電腦還是手機(jī)......)的直覺與大模型進(jìn)行交互。請注意,這并不意味著模型將成為一個傳統(tǒng)的應(yīng)用程序?!坝嬎銠C(jī)應(yīng)用程序”將是模型向我們展示自己的一種方式。模型將不再像一個“人”,而是像一臺“計算機(jī)”。
而像計算機(jī)一樣運(yùn)行,就意味著要產(chǎn)生一個圖形界面。替代 ChatGPT 提供的迷人的電傳線性文本流,“模型即計算機(jī)”系統(tǒng)將生成類似于現(xiàn)代應(yīng)用程序界面的東西:按鈕、滑塊、選項卡、圖像、繪圖和其他所有東西。這就解決了“模型即人”聊天界面的主要局限性:
發(fā)現(xiàn)性。一個好的工具會告訴人類它可以被用來做什么。當(dāng)唯一的界面是一個空文本框時,用戶就有責(zé)任弄清楚該做什么,并理解系統(tǒng)的邊界。Lightroom 中的編輯側(cè)邊欄是學(xué)習(xí)照片編輯的好方法,因為它不僅告訴你這個程序能對照片做什么,還告訴你可能想做什么。同樣,DALL-E 的“模型即計算機(jī)”界面也能為你的圖像生成帶來新的可能性。如果你要求生成一幅素描風(fēng)格的圖像,那么它可以為繪畫媒介(鉛筆、馬克筆、粉彩......)生成單選按鈕,為素描的細(xì)節(jié)程度生成滑塊,在彩色和黑白之間切換,并生成一些圖解按鈕,來選擇透視(2D、同構(gòu)、兩點(diǎn)透視......)。效率。直接操作比用文字編寫請求更快捷。繼續(xù)以 Lightroom 為例,如果要編輯一張照片,告訴別人要移動哪個滑塊、移動多少,那是不可想象的。你會整天在那里要求曝光率低一點(diǎn)、鮮艷度高一點(diǎn),就為了看看效果如何。在“模型即計算機(jī)”的隱喻中,模型可以創(chuàng)建工具,讓你更有效地表達(dá)自己的想法,從而更快地完成任務(wù)。在 DALL-E 的例子中,通過點(diǎn)擊這些選項和拖動這些滑塊,你就可以實(shí)時探索生成草圖的空間。與傳統(tǒng)的應(yīng)用程序不同,這個圖形界面是由模型按需生成的。這就意味著你所看到的界面的每一部分都與你現(xiàn)在正在做的事情相關(guān),包括你的作品的具體內(nèi)容(這幅畫的主題、這段文字的基調(diào))。這也意味著,如果你想要更多或不同的界面,你可以直接提出要求。你可以要求 DALL-E 為其設(shè)置制作一些可編輯的預(yù)設(shè),這些預(yù)設(shè)的靈感來自著名的素描藝術(shù)家。當(dāng)你點(diǎn)擊達(dá)芬奇預(yù)設(shè)時,它會將滑塊設(shè)置為高度精細(xì)的黑色墨水透視畫。如果點(diǎn)擊 Charles Schulz,則會選擇低細(xì)節(jié)的科技彩色 2D 漫畫。
思維的多變自行車
“模型即人”有一種奇怪的傾向,就是在用戶和模型之間制造距離,這就像兩個人之間的溝通鴻溝一樣,可以縮小,但永遠(yuǎn)無法完全彌合。由于用語言交流既困難又昂貴,人們傾向于將任務(wù)分成盡可能獨(dú)立的大塊(large chunk)?!澳P图慈恕钡慕缑嬉沧裱@種模式:如果自己編寫返回語句更快,就不太值得告訴模型在函數(shù)中添加返回語句。有了通信的開銷,當(dāng)“模型即人”系統(tǒng)可以獨(dú)立完成一整塊工作時,它們才是最有用的。它們?yōu)槟阕鍪隆?/p>
這與我們與計算機(jī)或其他工具的交互方式形成了鮮明的對比。工具會實(shí)時產(chǎn)生視覺反饋,并通過直接操作進(jìn)行控制。這些工具的通信開銷很小,因此沒有必要指定一個獨(dú)立的工作塊。更有意義的做法是,讓人始終處于環(huán)路中,并隨時指揮工具。就像七里靴一樣,工具讓你每一步都走得更遠(yuǎn),但你仍然是做這些工作的人。它們讓你更快地完成任務(wù)。
想想使用大模型建立網(wǎng)站的任務(wù)。使用現(xiàn)在的界面,你可以把模型當(dāng)作一個承包商或合作者。你可以盡量用文字寫下你希望網(wǎng)站的樣式、內(nèi)容和功能。模型會生成一個初版,你會運(yùn)行它,然后你會得到一些反饋。你會說,“把徽標(biāo)做大一點(diǎn)”,“把第一張英雄圖片放在中間”,“在頁眉處應(yīng)該有一個登錄按鈕”。為了讓一切完全符合你的要求,你會發(fā)送一長串越來越吹毛求疵的需求。
“模型即計算機(jī)”的交互方式看起來會有所不同:模型不會直接構(gòu)建網(wǎng)站,而是生成一個界面供你構(gòu)建網(wǎng)站,用戶在該界面中的每一次輸入都會調(diào)動界面背后的大模型。也許當(dāng)你描述你的需求時,它會生成一個帶有側(cè)邊欄和預(yù)覽窗口的界面。起初,側(cè)邊欄只包含一些布局草圖,你可以選擇它們作為起點(diǎn)。你可以點(diǎn)擊每一個草圖,模型就會使用該布局編寫網(wǎng)頁的 HTML,并將其顯示在預(yù)覽窗口中?,F(xiàn)在你已經(jīng)有了一個可以使用的頁面,側(cè)邊欄增加了影響整個頁面的其他選項,如字體搭配和配色方案。預(yù)覽就像一個所見即所得的編輯器,允許你抓取元素并移動它們,編輯它們的內(nèi)容等。所有這些都由模型提供動力,它可以看到用戶的這些操作,并根據(jù)用戶所做的更改重寫頁面。因為模型可以生成一個界面,幫助你更有效地交流,所以你可以在更短的時間內(nèi)對最終產(chǎn)品進(jìn)行更多的控制權(quán)。
“模型即計算機(jī)”鼓勵我們把模型當(dāng)作一個實(shí)時互動的工具,而不是一個布置任務(wù)的合作者。與其說它代替了實(shí)習(xí)生或輔導(dǎo)員,不如說它是一種思維的多變自行車,它總是為你和你計劃穿越的地形量身定制。
計算的新范式?
可按需生成界面的模型,是計算領(lǐng)域的一個全新領(lǐng)域。通過繞過現(xiàn)有應(yīng)用模式的方式,它們可能完全是一種新范式。賦予終端用戶即時創(chuàng)建和修改應(yīng)用程序的能力,從根本上改變了我們與計算機(jī)的交互方式。模型將取代開發(fā)人員構(gòu)建的單一靜態(tài)應(yīng)用程序,為用戶及其即時需求生成定制的應(yīng)用程序。模型將取代用代碼實(shí)現(xiàn)的業(yè)務(wù)邏輯,解釋用戶的輸入并更新用戶界面。這種生成式用戶界面甚至有可能完全取代操作系統(tǒng),根據(jù)需要即時生成并管理界面和窗口。
起初,生成式用戶界面只是一個“玩具”,只對創(chuàng)意探索和其他一些小眾應(yīng)用真正有用。畢竟,沒有人會想要一個偶爾會把郵件誤發(fā)給你的前任,并對你收件箱情況撒謊的電子郵件應(yīng)用。但漸漸地,這些模型將會變得更好。即使它們進(jìn)一步推進(jìn)到全新體驗的空間,它們也會逐漸變得足夠可靠,可以用作真正的工作。
這種未來的雛形已經(jīng)顯現(xiàn)。幾年前,Jonas Degrave 就展示了 ChatGPT 可以像模像樣地模擬 Linux 命令行。與此類似,websim.ai 利用 LLM 在你瀏覽網(wǎng)站時按需生成網(wǎng)站。Oasis、GameNGen 和 DIAMOND 在單個視頻游戲上訓(xùn)練動作條件視頻模型,讓你在大模型中玩《毀滅戰(zhàn)士》等游戲。而 Genie 2 則能根據(jù)文字提示生成可玩的視頻游戲。生成式用戶界面可能仍然是一個瘋狂的想法,但并沒有那么瘋狂。
關(guān)于它將會是什么樣子,還有很多問題有待解決。生成式用戶界面首先會在哪里發(fā)揮作用?如果我們通過與模型合作獲得的體驗只存在于大模型的上下文中,我們將如何分享這些體驗?我們是否愿意這樣做?會有哪些新的體驗?這一切將如何實(shí)際運(yùn)作?模型應(yīng)該以代碼的形式生成用戶界面,還是直接生成原始像素?
我還不知道這些答案。我們必須通過實(shí)驗來找出答案!
原文鏈接:https://willwhitney.com/computing-inside-ai.html
翻譯:李雯靖
本文僅為作者觀點(diǎn),不代表學(xué)術(shù)頭條的立場。