版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

圖靈獎得主楊立昆:我如何走上人工智能之路丨展卷

返樸
原創(chuàng)
溯源守拙·問學(xué)求新。《返樸》,科學(xué)家領(lǐng)航的好科普。
收藏

2018年圖靈獎得主、法國人工智能科學(xué)家楊立昆(Yann Le Cun)被認(rèn)為是深度學(xué)習(xí)的發(fā)明者之一,也被譽(yù)為“卷積神經(jīng)網(wǎng)絡(luò)”之父。最近他出版了自傳《科學(xué)之路:人、機(jī)器與未來》,這也是一本介紹人工智能相關(guān)領(lǐng)域的科普著作。作為當(dāng)今火熱的深度學(xué)習(xí)的構(gòu)建者,楊立昆對人工智能的低谷與輝煌有著切身實際感受以及冷靜務(wù)實的思考。那么他是如何踏上自己的科學(xué)之路的?

本文經(jīng)授權(quán)節(jié)選自《科學(xué)之路:人、機(jī)器與未來》(中信出版社)第二章,內(nèi)容有刪減,標(biāo)題為編輯所加。前往“返樸”,點擊文末“閱讀原文”可購買此書。點擊“在看”并發(fā)表您的感想至留言區(qū),截至2021年9月12日中午12點,我們會選出1條留言,贈書1本。

撰文丨楊立昆(Yann Le Cun)

翻譯丨李皓、馬躍

信息的自由流動就是進(jìn)步的動力。

——楊立昆

遭遇寒冬

1969 年,西摩爾·帕普特(Seymour Papert)和馬文·明斯基(后者在 20 世紀(jì) 50 年代曾熱衷于人工神經(jīng)網(wǎng)絡(luò)的研究,后來放棄了)聯(lián)合出版《感知器:計算幾何學(xué)概論》一書[1]。他們在書中指出了學(xué)習(xí)機(jī)的局限性,其中有些局限性對于技術(shù)發(fā)展會造成嚴(yán)重阻礙。因此對他們來說,神經(jīng)網(wǎng)絡(luò)的研究之旅已經(jīng)走入了死胡同。這兩位都是麻省理工學(xué)院極負(fù)盛名的權(quán)威教授,他們的作品在領(lǐng)域內(nèi)引起了轟動:資助機(jī)構(gòu)紛紛退出,不再支持該領(lǐng)域的研究工作。與 GOFAI(good old-fashioned artificial intelligence,好的老式人工智能。基于邏輯、規(guī)則和搜索算法的傳統(tǒng)人工智能方法。)一樣,神經(jīng)網(wǎng)絡(luò)的研究也遭遇了它的第一個“冬天”。

大多數(shù)科學(xué)家不再談?wù)撝圃炀哂袑W(xué)習(xí)能力的智能機(jī)器之事,轉(zhuǎn)而把目光轉(zhuǎn)向了更容易落地的項目。比如,運用一些原本用來研究神經(jīng)網(wǎng)絡(luò)的方法創(chuàng)建了“自適應(yīng)濾波”,這是許多現(xiàn)代通信技術(shù)的起源。在此之前,當(dāng)我們通過電話線在兩臺計算機(jī)之間交換數(shù)據(jù)時,電話線可能會發(fā)生以下情形:我們輸入一個二進(jìn)制信號,電壓從0伏升到48伏,而信號在距離目的地還剩幾公里時就已經(jīng)損壞了。但現(xiàn)在,自適應(yīng)濾波器能將其復(fù)原,這個過程是通過以其發(fā)明者鮑勃·拉迪(Bob Lucky)的名字命名的 Lucky 算法實現(xiàn)的。20 世紀(jì) 80 年代后期, 鮑勃·拉迪曾在貝爾實驗室擔(dān)任部門經(jīng)理,領(lǐng)導(dǎo)著約300人工作,我也是其中一員。

如果沒有自適應(yīng)濾波,就不會出現(xiàn)帶揚(yáng)聲器的電話。揚(yáng)聲器可以讓我們對著麥克風(fēng)講話,而它不需要同時記錄對話者說的話(有時我們能聽到自己在說話)?;芈曄魇褂玫乃惴ㄅc感知器使用的算法非常相似。

狂熱的瘋子

在 20 世紀(jì)七八十年代的“寒冬”里,仍有一些人執(zhí)著于神經(jīng)網(wǎng)絡(luò)研究,科學(xué)界把他們視為狂熱的瘋子。比如,芬蘭人戴沃·科霍寧(Teuvo Kohonen),他研究的是一個與神經(jīng)網(wǎng)絡(luò)比較接近的課題—聯(lián)想記憶。再比如,還有一群日本人,與西方不同,日本的工程科學(xué)生態(tài)系統(tǒng)比較孤立,其中包括數(shù)學(xué)家甘利俊一(Shun-Ichi Amari)和一位名為福島邦彥(Kunihiko Fukushima)的業(yè)內(nèi)人士,后者發(fā)布了一個被他稱為“認(rèn)知機(jī)”(Congitron)的機(jī)器,這一命名來自術(shù)語“感知器”(preceptron)。福島邦彥前后一共發(fā)布了這個機(jī)器的兩個版本,分別是 20 世紀(jì) 70 年代的認(rèn)知機(jī)和 80 年代的神經(jīng)認(rèn)知機(jī)(Neocognitron)。與同時代的弗蘭克·羅森布拉特一樣,福島邦彥也受到了神經(jīng)科學(xué)新發(fā)現(xiàn)的啟發(fā),特別是美國人大衛(wèi)·休伯爾(David H. Hubel)和瑞典人托斯坦·威澤爾(Torsten N. Wiesel)的發(fā)現(xiàn)給予了他很多靈感。

休伯爾和威澤爾是兩位神經(jīng)生物學(xué)家,他們因在貓的視覺系統(tǒng)方面的研究成果獲得了1981 年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。他們發(fā)現(xiàn)視覺是視覺信號通過幾層神經(jīng)元傳遞后呈現(xiàn)的結(jié)果,包括從視網(wǎng)膜到初級視覺皮層,再到視覺皮層的其他區(qū)域,最后到顳下皮層。在這些層級中,神經(jīng)元發(fā)揮著非常特殊的作用。在初級視覺皮層中,每個神經(jīng)元僅連接到視野的一小部分區(qū)域,即接收區(qū)域。這些神經(jīng)元被稱為簡單細(xì)胞。在下一層,即視覺皮層中,其他單元集成了上一層激活的信息,使得視覺對象即使在視野中稍微移動,視覺系統(tǒng)也能保持圖像的呈現(xiàn)。這些單元被稱為復(fù)雜細(xì)胞。

福島邦彥便是受到這個研究成果的啟發(fā),延伸出了一個想法:先利用一層簡單細(xì)胞檢測各個小接收區(qū)域所接收的圖像的簡潔信息,再利用下一層復(fù)雜細(xì)胞處理收集到的信息。他研發(fā)的神經(jīng)認(rèn)知機(jī)共有5層:簡單細(xì)胞、復(fù)雜細(xì)胞、簡單細(xì)胞、復(fù)雜細(xì)胞,最后是類似感知器的分類層。福島在前四層使用了某種“不受監(jiān)督”的學(xué)習(xí)算法,也就是說,它們接受的是不考慮完成任務(wù)的、“盲目”的訓(xùn)練。僅有最后一層像感知器一樣,接受了“受監(jiān)督”的訓(xùn)練。但從總體來看,福島邦彥缺乏一種可以調(diào)整所有層級參數(shù)的算法,所以他的網(wǎng)絡(luò)只能識別諸如數(shù)字一類極其簡單的事物。

在 20 世紀(jì) 80 年代初期,福島邦彥并非獨自一人在此領(lǐng)域進(jìn)行探索,北美的一些團(tuán)隊也在進(jìn)行著積極的探索,例如心理學(xué)家杰伊·麥克萊蘭德(Jay McClelland)和戴夫·魯梅爾哈特(David Rumelhart),還有生物物理學(xué)家約翰·霍普菲爾德(John Hopfield)和特倫斯·謝諾夫斯基(Terry Sejnowski),以及計算機(jī)科學(xué)家杰弗里·辛頓(Geoffrey Hinton)。辛頓與我共享了2018年度圖靈獎。

被興趣激發(fā)的人

從20世紀(jì)70年代起,我開始對這些研究產(chǎn)生了濃厚的興趣,我的好奇也許來自對父親的觀察。他是一名航空工程師,同時也是一位動手天才,他總是喜歡在業(yè)余時間做電子產(chǎn)品。他制作過遙控飛機(jī)的簡化模型。記得那是在 1968 年 5 月大罷工期間(譯者注:這里的大罷工指“五月風(fēng)暴”,是 1968 年 5 月法國爆發(fā)的一場學(xué)生罷課、工人罷工的群眾運動。),父親在家里制作了他人生中第一個遙控汽車和一艘船的遙控器。我并不是家里唯一被激發(fā)興趣的人,我弟弟也是。他比我小6歲,同樣受到父親的影響,后來也成為計算機(jī)科學(xué)家。他大學(xué)畢業(yè)后成為谷歌的研究員。

在很早的時候,我就對技術(shù)、征服太空以及計算機(jī)的誕生充滿了探索的熱情。我曾夢想成為一名古生物學(xué)家,因為人類智能的出現(xiàn)及演化深深地吸引了我。即使在今天,我也依舊認(rèn)為大腦的運行機(jī)制是生命世界中最神秘的事物。我8歲的時候,在巴黎跟我的父母、一位叔叔和一位沉迷于科幻的阿姨一起看過一部電影——《2001太空漫游》。影片里出現(xiàn)了我所熱愛的一切:太空旅行、人類的未來以及超級計算機(jī)哈爾的起義。哈爾為了確保自己的生存和完成最后的任務(wù)而要展開屠殺,這件事情真的很不可思議,而在這之前,如何將人工智能復(fù)制到機(jī)器中這個問題就已經(jīng)讓我深深著迷了。

鑒于此,高中畢業(yè)后我自然而然地打算投身這個領(lǐng)域進(jìn)行具體研究。1978年,我進(jìn)入了巴黎高等電子與電工技術(shù)工程師學(xué)院,就讀該學(xué)院無須參加預(yù)科課程,可以在高中畢業(yè)后直接申請。我的實踐經(jīng)歷證明,讀預(yù)科并不是在科學(xué)之路上取得成功的唯一途徑。而且,我在巴黎高等電子與電工技術(shù)工程師學(xué)院學(xué)習(xí)時擁有很多自主權(quán),所以我肯定會好好珍惜利用!

卓有成效的閱讀

在第一批讓我感到欣喜的讀物中,有一份是我在1980年讀過的報告。這實際上是一份辯論總結(jié),辯論是在瑟里西(Cerisy)會議上展開的,主題是人類語言機(jī)制到底是先天的還是后天的。[2]語言學(xué)家諾姆·喬姆斯基的觀點是,大腦中生來就已經(jīng)存在能夠讓人們學(xué)習(xí)說話的結(jié)構(gòu)。而發(fā)展心理學(xué)家讓·皮亞杰(Jean Piaget)則認(rèn)為,一切都是通過后天學(xué)習(xí)獲得的,包括大腦中學(xué)習(xí)說話的結(jié)構(gòu),語言學(xué)習(xí)是隨著智能的逐步建構(gòu)而分階段完成的。因此,智力的獲得是人與外界交流學(xué)習(xí)的結(jié)果。這個想法深深地吸引了我,我開始思考如何才能將其應(yīng)用于機(jī)器學(xué)習(xí)中。也有其他一些頂尖的科學(xué)家參加了這場辯論,比如西摩爾·帕普特,他極力頌揚(yáng)了感知器,認(rèn)為它是能夠?qū)W習(xí)復(fù)雜任務(wù)的簡單機(jī)器。

我因此知道了感知器的存在,并迅速沉迷于這個課題。我利用每周三下午不上課的時間,在羅康庫爾的 Inria(法國國家信息與自動化研究所)的圖書館尋找專業(yè)圖書來讀。在法蘭西島大區(qū),Inria掌握著最為豐厚的計算機(jī)研究經(jīng)費。我在閱讀過程中很快發(fā)現(xiàn),西方科學(xué)界尚無人研究神經(jīng)網(wǎng)絡(luò)。同時我還驚奇地發(fā)現(xiàn),有關(guān)感知器的研究就截止在西摩爾·帕普特所稱頌的感知器上,此外沒有進(jìn)一步的發(fā)展。

系統(tǒng)理論(在20世紀(jì)50年代被稱為控制論)是我的另一個研究愛好,它主要研究人工系統(tǒng)和天然生物系統(tǒng)。比如人類體溫的調(diào)節(jié)系統(tǒng):人體溫度之所以能夠維持在37℃左右,主要得益于一種恒溫器,它可以調(diào)節(jié)人體溫度與外界溫度之間的差異。

我對“自組織”也有濃厚的興趣。分子或相對簡單的物體是如何本能地相互作用組成復(fù)雜結(jié)構(gòu)的?智能是如何從大量相互作用的簡單元素(神經(jīng)元)中發(fā)展而來的?

我研究了柯爾莫哥洛夫、所羅門諾夫和柴廷(Chaitin)的算法復(fù)雜性理論中的數(shù)學(xué)部分。此外,我在前文中提到的理查德·杜達(dá)和彼得·哈特的書[3]就擺放在我的床頭,同時我還訂閱了《生物控制論》,這是一本涉及大腦運作原理和生命系統(tǒng)的計算機(jī)數(shù)學(xué)模型的期刊。

因此,所有因為“寒冬”而被忽視的人工智能問題都呈現(xiàn)在我面前。在思考這些問題時,我慢慢形成了自己的理念:以邏輯的方式無法建構(gòu)真正的智能機(jī)器,我們必須賦予機(jī)器學(xué)習(xí)的能力,讓它們能以經(jīng)驗為基礎(chǔ)進(jìn)行自我建構(gòu)。

在閱讀期間,我發(fā)現(xiàn)科學(xué)界不只我有這種想法,因此我也注意到了福島邦彥的研究成果,并開始思考提高新認(rèn)知中心神經(jīng)網(wǎng)絡(luò)效率的方法。對正式開展研究來說比較幸運的是,巴黎高等電子與電工技術(shù)工程師學(xué)院為學(xué)生提供了當(dāng)時功能非常強(qiáng)大的計算機(jī)。我與學(xué)校里的朋友菲利普·梅曲(Philippe Metsu)一起開始編寫程序。他同樣熱愛人工智能,尤其對兒童的學(xué)習(xí)心理感興趣。學(xué)校里的數(shù)學(xué)老師也愿意指導(dǎo)我們,我們一起嘗試模擬神經(jīng)網(wǎng)絡(luò)。但實驗十分費力:計算機(jī)進(jìn)步緩慢,編寫程序也著實令人頭疼。

在學(xué)校的第四年,我由于更加沉迷于這項研究,開始設(shè)想一種用于訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)規(guī)則,可惜并沒有真正得到數(shù)學(xué)層面的驗證。我構(gòu)想出一種可以在網(wǎng)絡(luò)中實現(xiàn)從后向前傳遞信號的算法,用來實現(xiàn)端到端的訓(xùn)練,我將它命名為 HLM 算法(取自分層學(xué)習(xí)機(jī)的英文名稱 hierarchical learning machine,參見第五章相關(guān)內(nèi)容)。命名這個算法的時候,我還玩了一個有趣的文字游戲(譯者注:在法語中,HLM是低租金住房[habitation à loyer modéré]的縮寫。)……在 HLM 的基礎(chǔ)上發(fā)展而來的“梯度反向傳播”算法如今已被廣泛應(yīng)用于訓(xùn)練深度學(xué)習(xí)系統(tǒng)。HLM 與如今的反向傳播梯度網(wǎng)絡(luò)的不同之處在于,HLM 傳遞的是每個神經(jīng)元的期望狀態(tài)。因此在當(dāng)時計算機(jī)運算乘法的速度比較慢的情況下,可以使用二進(jìn)制神經(jīng)元。HLM 算法是訓(xùn)練多層網(wǎng)絡(luò)的第一步。

我的偶像

1983年夏,我從工程專業(yè)畢業(yè)時,從一本書上了解到一個對自組織系統(tǒng)和自動機(jī)網(wǎng)絡(luò)感興趣的小組:網(wǎng)絡(luò)動力學(xué)實驗室(LDR)。他們的辦公地點位于巴黎圣納維耶沃綜合理工學(xué)院的舊址,小組成員都是法國人,他們來自各大高校。因為該小組不掛靠任何機(jī)構(gòu),所以幾乎沒有經(jīng)費和預(yù)算,只有一臺回收的計算機(jī)。從另一個角度說,法國在機(jī)器學(xué)習(xí)方面的研究當(dāng)時正處于近乎停滯的狀態(tài)。我拜訪了他們。和我不一樣,這些研究人員沒有接觸過有關(guān)神經(jīng)網(wǎng)絡(luò)的早期出版物,但他們熟悉其他作品。

我向他們表示,我對他們的研究課題感興趣,而且我所在學(xué)院的設(shè)備有助于他們做進(jìn)一步的研究。后來,我在皮埃爾和瑪麗·居里大學(xué)繼續(xù)研究生學(xué)習(xí)時,也加入了他們的小組。1984 年,我準(zhǔn)備攻讀博士學(xué)位。雖然當(dāng)時我有巴黎高等電子與電工技術(shù)工程師學(xué)院的研究獎學(xué)金,但還沒有找到合適的論文指導(dǎo)老師。弗朗索瓦絲·福熱爾曼-蘇利耶(Fran?oise Fogelman-Soulié,后來更名為 Soulié-Fogelman)與我共事了很長時間,她當(dāng)時是巴黎第五大學(xué)的計算機(jī)科學(xué)副教授。從能力上來講,她完全可以指導(dǎo)我,可惜,她還沒有完成國家博士論文

(此資格是歐洲教育體系的特色),所以她沒有取得指導(dǎo)博士論文的資格。

因此,我只能求助于實驗室中唯一一位能夠指導(dǎo)計算機(jī)博士論文的教授莫里斯·米爾格朗(Maurice Mil-gram),他是貢比涅技術(shù)大學(xué)計算機(jī)和工程科學(xué)的教授。他同意成為我的導(dǎo)師,但同時表示他對神經(jīng)網(wǎng)絡(luò)一無所知,所以可能幫不上什么忙。我永遠(yuǎn)都不會忘記他對我的關(guān)照。那段時間,我將所有精力都用在了巴黎高等電子與電工技術(shù)工程師學(xué)院(和它強(qiáng)大的計算機(jī))和 LDR(和它的知識環(huán)境)中。

我身處一個完全未知的領(lǐng)域,這實在令人興奮。在國外,也有一些課題跟我們接近的研究小組正在慢慢起步。1984 年夏,我陪同弗朗索瓦絲·福熱爾曼去了加利福尼亞,在帶有傳奇色彩的施樂帕克研究中心的實驗室實習(xí)了一個月。

當(dāng)時,我十分渴望見到兩位大人物:一位是來自巴爾的摩約翰斯·霍普金斯大學(xué)的生物物理學(xué)家和神經(jīng)生物學(xué)家特倫斯·謝諾夫斯基(《深度學(xué)習(xí)》作者),另一位是來自卡內(nèi)基·梅隆大學(xué)的杰弗里·辛頓,后者與約書亞·本吉奧和我共同分享了2018 年度的圖靈獎。

辛頓和謝諾夫斯基于 1983 年發(fā)表了一篇有關(guān)玻爾茲曼機(jī)(Boltzmann Machines)的文章,并在其中描述了一個帶有“隱藏單元”的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,這個隱藏單元是位于輸入和輸出之間的中間層的神經(jīng)元。我之所以對這篇文章感興趣,主要是因為他們提到了多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,這可是我研究課題中的核心問題,他們是真正對我的研究有價值的人!

“你認(rèn)識一個叫楊立昆的人嗎?”

我職業(yè)生涯真正意義上的轉(zhuǎn)折點出現(xiàn)在 1985 年2月,在阿爾卑斯山萊蘇什舉行的研討會上。在那次會議上,我遇到了當(dāng)時世界上對神經(jīng)網(wǎng)絡(luò)感興趣的頂級專家,他們有物理學(xué)家、工程師、數(shù)學(xué)家、神經(jīng)生物學(xué)家、心理學(xué)家,尤其是遇到了在科學(xué)界宛如神話一般的貝爾實驗室里一個新成立的研究神經(jīng)網(wǎng)絡(luò)的小組成員。得益于在萊蘇什的相識,三年后,我被該小組聘用。

這次研討會是由我所在的法國研究小組 LDR 的成員組織的,他們是弗朗索瓦絲和她當(dāng)時的丈夫熱拉爾·韋斯布赫(Gérard Weisbuch),后者時任巴黎高等師范學(xué)院的物理學(xué)教授,以及當(dāng)時在法國國家科學(xué)研究中心(CNRS)任職的理論神經(jīng)生物學(xué)家埃利·比嫩斯托克(élie Bienenstock)。會議匯聚了許多對“自旋玻璃”感興趣的物理學(xué)家,以及物理學(xué)和神經(jīng)科學(xué)等領(lǐng)域的權(quán)威人士。約翰·霍普菲爾德那篇關(guān)于自旋玻璃和神經(jīng)網(wǎng)絡(luò)的開創(chuàng)性文章[4],引得許多物理學(xué)家開始關(guān)注并學(xué)習(xí)人工神經(jīng)網(wǎng)絡(luò),但當(dāng)時仍有許多工程師和計算機(jī)科學(xué)家不愿談及這個話題。

在萊蘇什,我是年齡最小的與會者之一,我當(dāng)時剛開始著手寫博士論文。令我無比緊張的是,我需要在眾多享譽(yù)業(yè)界的大咖面前,用英語做一個關(guān)于多層網(wǎng)絡(luò)和 HLM 算法(反向傳播的前部研究)的英文報告。

尤其有兩位聽眾給了我巨大的壓力:一位是貝爾實驗室的部門負(fù)責(zé)人拉里·杰克爾(Larry Jackel),后來我很榮幸地加入了他的部門;另一位是該部門的二號人物約翰·登克爾(John Denker),他是一位來自亞利桑那州的真正牛仔,身穿牛仔褲和牛仔靴,有著垂到臉頰的頭發(fā)……這位剛剛完成博士論文的“非典型研究人員”擁有令人難以置信的強(qiáng)大氣場!當(dāng)某位研究者發(fā)言之后,他能夠很快就議題展開討論,表明自己的觀點。他談話時雖沒有攻擊性,卻擲地有聲,有理有據(jù)。當(dāng)然他的自信也是有緣由的,弗朗索瓦絲·福熱爾曼曾說:“貝爾實驗室的研究人員有著巨大的優(yōu)越感。當(dāng)你要研究某個課題時就會發(fā)現(xiàn),要么貝爾實驗室早在 10 年前就已經(jīng)研究過了,要么已經(jīng)證明這條路行不通了。”簡直太可怕了!

我做完了關(guān)于多層網(wǎng)絡(luò)和HLM算法的報告,與會者中真正聽懂的人寥寥無幾(這已經(jīng)讓我夠緊張了?。缓?,約翰·登克爾舉起了手,我簡直緊張到窒息!但他在所有聽眾面前對我說:“講得真的很好!謝謝您,讓我知道了很多事情……”我確信我的名字已經(jīng)留在他和拉里·杰克爾的腦海中。一年后,他們邀請我去他們的實驗室做報告。兩年之后,我接受了貝爾實驗室的面試。三年后,我正式加入了他們的團(tuán)隊!

同樣是在萊蘇什,我碰到了特倫斯·謝諾夫斯基,也就是與杰弗里·辛頓共同發(fā)表關(guān)于玻爾茲曼機(jī)的文章的作者。他是在我完成報告后到場的。我在下午的茶點時間找到了他,向他闡述了我在多層神經(jīng)網(wǎng)絡(luò)方面的工作。在交流之前,我并不確定他是否會感興趣。他只是耐心地聽著,并沒有告訴我他與杰弗里·辛頓也在進(jìn)行反向傳播研究,也沒有告訴我,辛頓已經(jīng)成功實現(xiàn)反向傳播,只不過沒有對外公布而已。

偉大的發(fā)明之間能夠相互啟發(fā)。辛頓的研究就使用到了加利福尼亞大學(xué)圣迭戈分校的戴夫·魯梅爾哈特的思路,辛頓在之前的幾年里曾跟隨戴夫讀博士后。1982 年,戴夫提出這個方法并編寫了程序, 只可惜沒能成功運行。他找到辛頓,辛頓說:“失敗的原因出在了局部一些極為細(xì)微的問題上?!保▍⒁姷谒恼隆岸鄠€谷底的困擾”)后來,戴夫放棄了。但是,在研究玻爾茲曼機(jī)的過程中,辛頓意識到問題并沒有自己當(dāng)初想象的那么嚴(yán)重。因此,他用 LISP 語言在 Symbolics 公司的 LISP 機(jī)器上用戴夫的方法重新編寫了程序,這一次程序成功運行起來。

因此,在我們交流的過程中,特倫斯很快注意到我的 HLM 方法和反向傳播非常相似。他沒有告訴我,在反向傳播成功后,他已經(jīng)在研究此后幾個月將會風(fēng)行一時的實際應(yīng)用了。特倫斯回到美國后向辛頓提到了我:“法國有個孩子在進(jìn)行跟我們同樣的研究!”

同年春天, 我寫了第一篇關(guān)于自己研究成果的文章(我承認(rèn),這篇文章離科學(xué)文獻(xiàn)的標(biāo)準(zhǔn)有點遠(yuǎn)),并在 1985 年 6 月舉辦的Cognitiva 大會上將其公開,那是法國第一次召開集合了人工智能、神經(jīng)網(wǎng)絡(luò)、認(rèn)知科學(xué)和神經(jīng)科學(xué)的綜合性大會。杰弗里·辛頓是當(dāng)時的主講嘉賓,他在開幕辭上介紹了玻爾茲曼機(jī)。結(jié)束后,將近 50 個人聚集在他的周圍,我也想上前交流,但并沒有機(jī)會靠近他。隨后,我注意到他轉(zhuǎn)向其中一位會議組織者丹尼爾·安德勒(Daniel Andler),并問道:“你認(rèn)識一個叫楊立昆的人嗎?”丹尼爾開始四處觀望,我立馬大喊道:“我在這兒?!逼鋵?,辛頓已經(jīng)在會議論文集上看到了我的文章,雖然他不精通法語,但依然看懂了文章的內(nèi)容,他意識到我就是特倫斯提過的那個“孩子”。

我們在第二天碰了面,并一起在一家古斯古斯(來自北非馬格里布地區(qū)的美食)餐廳吃了午飯。他向我解釋了反向傳播的原理,他知道我能聽懂!辛頓說自己正在寫一篇文章,其中引用了我的研究成果,我聽后非常自豪。我倆很快意識到,我們的興趣、方法以及思路都十分相似。辛頓邀請我參加 1986 年在卡內(nèi)基·梅隆大學(xué)舉辦的關(guān)于聯(lián)結(jié)主義模型的暑期培訓(xùn)班,我欣然接受。當(dāng)時在認(rèn)知科學(xué)界,研究者通常用“聯(lián)結(jié)主義模型”這個術(shù)語來稱呼神經(jīng)網(wǎng)絡(luò)這個未知領(lǐng)域。

梯度反向傳播的運用

20 世紀(jì) 80 年代,梯度反向傳播的普及使得訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)成為可能。該網(wǎng)絡(luò)由成千上萬分層的神經(jīng)元組成,其間的連接更是數(shù)不勝數(shù)。每層神經(jīng)元都會合并、處理和轉(zhuǎn)換前一層的信息,并將結(jié)果傳遞到下一層,直到在最后一層產(chǎn)生響應(yīng)為止。這種層次體系結(jié)構(gòu)賦予了多層網(wǎng)絡(luò)能夠存儲驚人的潛能,我們會在接下來的深度學(xué)習(xí)部分進(jìn)行進(jìn)一步的討論。不過,在1985年,多層網(wǎng)絡(luò)的學(xué)習(xí)過程仍然很難實現(xiàn)。

這一切在1986 年發(fā)生了轉(zhuǎn)變。特倫斯·謝諾夫斯基發(fā)表了一篇探討NetTalk 多層網(wǎng)絡(luò)的技術(shù)報告,NetTalk通過反向傳播訓(xùn)練使機(jī)器學(xué)習(xí)閱讀。該系統(tǒng)將英文文本轉(zhuǎn)換成一組語音音素(基本語音)后傳到語音合成器,從而實現(xiàn)“閱讀”的功能。將文本語音轉(zhuǎn)換成法語很簡單,轉(zhuǎn)換成英語卻十分困難。在訓(xùn)練的初期,這個系統(tǒng)如同一個剛開始學(xué)習(xí)說話的嬰兒,隨著訓(xùn)練的不斷積累,它的發(fā)音也越來越好。特倫斯·謝諾夫斯基到巴黎高等師范學(xué)院現(xiàn)場做了相關(guān)報告,震驚了現(xiàn)場聽眾和業(yè)界。隨即,所有人都希望向我取經(jīng),因為多層網(wǎng)絡(luò)突然變得十分流行,我也變成了這個領(lǐng)域的專家。

在這之前的一年,我發(fā)現(xiàn)可以用拉格朗日形式從數(shù)學(xué)的角度反向傳播,這類形式化是傳統(tǒng)機(jī)械、量子機(jī)械和“最優(yōu)控制”理論的基礎(chǔ)。我還注意到在 20 世紀(jì) 60 年代,有一位最優(yōu)控制的理論家提出了一個類似反向傳播的方法,這個方法被命名為“凱利-布賴森(Kelly-Bryson)算法”,也被稱為“伴隨狀態(tài)法”。在1969年出版的由亞瑟·布賴森(Arthur Bryson)和何毓琦(Yu-Chi Ho)合著的《應(yīng)用最優(yōu)控制》(Applied Optimal Control)一書中對其進(jìn)行了詳細(xì)講述。

這些科學(xué)家從沒想過將這個方法應(yīng)用到機(jī)器學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)領(lǐng)域,他們更感興趣的是系統(tǒng)的規(guī)劃和控制。比如,如何控制火箭,使其到達(dá)一個精準(zhǔn)的軌道并且和另外一個航空器對接,且同時要盡可能減少能源消耗。而從數(shù)學(xué)的角度來說,這個問題和調(diào)整多層神經(jīng)網(wǎng)絡(luò)節(jié)點的權(quán)重問題非常相似,這樣最后一層的輸出結(jié)果就會符合預(yù)期。

1986 年7月,應(yīng)辛頓之邀,我在匹茲堡的卡內(nèi)基·梅隆大學(xué)參加了為期兩周的關(guān)于聯(lián)結(jié)主義模型的暑期課程(如下圖)。這次美國之行我其實是有顧慮的,因為當(dāng)時我的妻子正在孕中,我們的第一個孩子將在我回法國4周后降生。

1986 年有關(guān)聯(lián)結(jié)主義模型的暑期課程班學(xué)員

照片中標(biāo)出的是斯坦尼斯拉斯·德阿納(SD)、邁克爾·喬丹(MJ)、杰伊·麥克萊蘭德(JMcC)、杰弗里·辛頓(GH)、特倫斯·謝諾夫斯基(TS)和我(YLC)。除此之外,照片上的許多參與者日后都成了機(jī)器學(xué)習(xí)、人工智能和認(rèn)知科學(xué)領(lǐng)域的重要人物:安迪·巴爾托、戴夫·圖爾茨基、格里·泰紹羅、喬丹·波拉克、吉姆·亨德勒、邁克爾·莫澤爾、理查德·德賓等組織者。

我對那個夏天最深的記憶就是我與辛頓,還有剛完成博士論文的邁克爾·喬丹(Michael Jordan)建立了一個研究神經(jīng)網(wǎng)絡(luò)的團(tuán)隊, 我們?nèi)齻€人之間也因此結(jié)下了深厚的友誼。為什么邀請邁克爾呢?因為他的法語比我的英語好。在暑期培訓(xùn)班的野餐會上,他彈著吉他演唱了喬治·布拉桑(Georges Brassens)的歌。

雖然我還只是個學(xué)生,但辛頓還是邀請我做了一場報告,并介紹說我發(fā)現(xiàn)了反向傳播。在一次晚餐時,我們享用著我?guī)淼囊黄亢馨舻牟柖嗉t酒,辛頓跟我說,他將在一年后離開卡內(nèi)基·梅隆大學(xué), 加入多倫多大學(xué)。他問:“你愿意成為我的客座研究員嗎?”我回答:“當(dāng)然了!”這一年時間正好夠我完成博士論文。

大變革的時代到來了。魯梅爾哈特、辛頓、威廉聯(lián)合發(fā)表的關(guān)于反向傳播的論文在業(yè)界引發(fā)了爆炸式的反響。[5]NetTalk 成功的消息也迅速傳播開來。神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究走上了快車道。我制作的名為HLM 的神經(jīng)網(wǎng)絡(luò)模擬和反向訓(xùn)練軟件也吸引了法國工業(yè)界的一些買家,Thomson-CSF(現(xiàn)在名為 Thales,即法國泰雷茲集團(tuán))就是我的顧客之一。

1987 年6 月,我完成了博士論文,并在皮埃爾和瑪麗·居里大學(xué)通過了答辯。因為我在 4 月嘗試一種新的沙灘帆船推進(jìn)方式時傷到了腳踝,所以我借助拐杖才完成了答辯。杰弗里·辛頓是我的答辯委員之一,此外答辯委員會還有莫里斯·米爾格朗、弗朗索瓦絲·福熱爾曼,雅克·皮特拉(Jacques Pitrat,法國人工智能符號領(lǐng)域的科研領(lǐng)袖之一)和貝爾納·安吉尼奧(Bernard Angéniol,Thomson-CSF 的一個研究團(tuán)隊負(fù)責(zé)人)。同年7月,我和我的妻子,還有我們一歲的寶寶一起來到多倫多,我成為辛頓的客座研究員。我們預(yù)計在多倫多的生活不會超過一年,我的妻子為了照顧孩子,不得不擱置了她的藥劑師工作。我還指導(dǎo)著一個名叫萊昂·博圖(Léon Bottou)的朋友。我與萊昂結(jié)識于 1987 年初,當(dāng)時他正在巴黎綜合理工學(xué)院完成最后一年的學(xué)業(yè)。他對神經(jīng)網(wǎng)絡(luò)很感興趣,因此決定跟隨我做畢業(yè)實習(xí)。請千萬不要告訴他們的校長我還沒有取得博士學(xué)位。當(dāng)時,我正計劃編寫新的軟件來創(chuàng)建并訓(xùn)練神經(jīng)網(wǎng)絡(luò),它是由LISP解釋器驅(qū)動的模擬器。

我把解釋器的相關(guān)工作交給了萊昂,他僅用三周時間就完成了!此外,因為我們都擁有同款個人計算機(jī)——Commodore 公司的Amiga(一款高分辨率、快速的圖形響應(yīng)、可執(zhí)行多媒體任務(wù)的計算機(jī)),所以我倆的合作既愉快又高效。與現(xiàn)在的蘋果計算機(jī)和其他品牌的個人計算機(jī)不同,Amiga 計算機(jī)具有類似北美 IT(信息技術(shù)) 部門中常見的 UNIX 工作站的屬性:我們使用 C 語言編程, 使用GCC 編譯器和 Emacs 文本編輯器。我那臺 Amiga 計算機(jī)安裝了專供信息工作者使用的文本處理程序 LaTex,我就是利用它完成了博士論文。萊昂和我通過連接 MiniTel(數(shù)字化電話信息的交互式媒體)遠(yuǎn)程交換程序代碼段。

我們將程序命名為SN(simulator neuronal,神經(jīng)模擬器),它也是我倆長久合作與友誼的見證。萊昂后來在紐約FAIR的辦公室離我的辦公室并不遠(yuǎn)。

在多倫多,我完成了 SN,之后對其做了調(diào)整,以便實現(xiàn)我設(shè)想的一個可以用于圖像識別的神經(jīng)網(wǎng)絡(luò)——卷積網(wǎng)絡(luò)。卷積網(wǎng)絡(luò)是受福島邦彥的神經(jīng)認(rèn)知機(jī)啟發(fā)而產(chǎn)生的一個想法,但它使用的是更為傳統(tǒng)的神經(jīng)元,并且受到反向傳播的驅(qū)動。同時,杰弗里·辛頓開發(fā)了一種更簡單的用于語音識別的卷積網(wǎng)絡(luò),他將其稱為 TDNN(時延神經(jīng)網(wǎng)絡(luò))。

1987 年年底,我應(yīng)邀前往麥吉爾大學(xué)的蒙特利爾計算機(jī)科學(xué)研究中心做報告。報告結(jié)束時,一位年輕的碩士研究生提出了一系列問題,從提問中可以看出他在多層神經(jīng)網(wǎng)絡(luò)方面有比較深入的研究。要知道在同時期,該領(lǐng)域的研究人員相當(dāng)少。他想了解如何調(diào)整神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并使其能夠處理語音或文本等時間信號。我記住了他的名字:約書亞·本吉奧。

參考資料

[1] Marvin L. Minsky, Seymour A. Papert, Perceptrons : An Introduction to Computional Geometry, The MIT Press, 1969 .

[2] Théories du langage, théories de l’apprentissage : le débat entre Jean Piaget et Noam Chomsky, débat recueilli par Maximo Piatelli-Palmarini, Centre Royaumont pour une science de l’homme, Seuil,《Points》, 1979 .

[3] Richard O. Duda, Peter E. Hart, Pattern Classification and Scene Analysis, op. cit., p. 6.

[4] John J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proceedings of the National Academy of Sciences, 1982 , 79 ( 8 ), pp. 2554 – 2558 , DOI : 10 . 1073 /pnas. 79 . 8 . 2554.

[5] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning internal representations by error propagation, in D. E. Rumelhart, J. L. McClelland, PDP Researche Group, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, MIT Press, 1986 , vol. 1 , pp. 318-362.

作者簡介

楊立昆(Yann Le Cun):法國人,名字原文為Yann Le Cun,姓氏為Le Cun,因在美國常被誤縮寫為Y.L.Cun,于是把LeCun合寫在一起。中文譯名原為揚(yáng)·勒丘恩,華人AI圈一直親切地稱他為“楊樂康”,他本人聽聞后,干脆自己給自己取了中文名字——楊立昆。

他被譽(yù)為 “卷積神經(jīng)網(wǎng)絡(luò)之父”,2019年3月,因在人工智能深度學(xué)習(xí)方面的貢獻(xiàn)獲得2018年度圖靈獎。此外,他還獲得了2014年IEEE神經(jīng)網(wǎng)絡(luò)先鋒獎(Neural Network Pioneer Award)、2015 年 IEEE PAMI 杰出研究獎和2016 年 Lovie 終身成就獎。

他為卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)和圖像識別領(lǐng)域做出了重要貢獻(xiàn),以手寫字體識別、圖像壓縮和人工智能硬件等主題發(fā)表過190多份論文,研發(fā)了很多關(guān)于深度學(xué)習(xí)的項目,并且擁有14項相關(guān)的美國專利。研究領(lǐng)域包括人工智能、機(jī)器學(xué)習(xí)、機(jī)器感知、移動機(jī)器人學(xué)和計算神經(jīng)學(xué)。