版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

孫瑩 | 從信息碎片到知識織錦

科學中國人
原創(chuàng)
《科學中國人》雜志社官方賬號
收藏

在數(shù)據(jù)驅(qū)動的時代,人工智能(AI)正以前所未有的速度改變著世界:從大數(shù)據(jù)智能推薦到自動駕駛,從金融風控到醫(yī)療診斷,AI的應用無處不在。然而,隨著AI模型變得越來越復雜,它們的決策過程也變得更加難以理解,這催生了一個新的研究領(lǐng)域——可解釋性人工智能。

▲孫瑩

傳統(tǒng)的深度學習模型,如神經(jīng)網(wǎng)絡(luò),往往被視為“黑盒”。這意味著雖然它們可以基于大量數(shù)據(jù)做出準確預測,但用戶卻很難洞察其內(nèi)部的工作原理。這種不透明性在許多場景下是不可接受的,特別是在醫(yī)療、法律和金融等行業(yè),決策的可解釋性和公正性至關(guān)重要。因而,香港科技大學(廣州)人工智能學域助理教授孫瑩在信息龐雜的數(shù)字宇宙中探索多年,最終錨定了數(shù)據(jù)挖掘與可解釋性人工智能的研究方向,她仿若藝術(shù)家開始拿起自己的調(diào)色盤,在數(shù)據(jù)織就的精密網(wǎng)絡(luò)上勾勒出一幅幅精致的知識織錦,讓狀似枯燥無趣的代碼講述出令人著迷的故事。

智慧的“礦工”

想象一下,當數(shù)以億計的用戶紛紛在社交媒體上點贊、評論或是瀏覽網(wǎng)頁時,會產(chǎn)生多少數(shù)據(jù)?手下鼠標的每一次點擊都如同一顆種子,落入數(shù)據(jù)的深淵,而這些種子又會在層層疊疊代碼交織的滋養(yǎng)下,迅速生長,匯聚成錯綜復雜的邏輯鏈。如果沒有相關(guān)研究者加以梳理、分析,這些邏輯鏈將永遠如同混沌的海洋,無法展現(xiàn)其真正價值。所幸,年少的孫瑩對此“開悟”得很早,幾乎可以說,她如同一個被計算機學選中的孩子。

眉眼清秀、聲音爽朗,這是孫瑩留給外界所有人的第一印象。語氣語調(diào)輕快利落,仿佛能把所有事都在短時間內(nèi)條分縷析地“擺平”一樣,這是她為人處世的個人風格。而這份干練與她的成長環(huán)境與家庭教育是分不開的。從小,孫瑩便時常被爸媽和老師說“投錯胎了,生了個男孩”。明明頂著一張淡雅清麗的臉,也取了個剔透似水的名字,孫瑩卻偏偏不熱愛也不擅長收拾自己,除了潛心鉆研計算機相關(guān)知識,對周遭其他不感興趣。

早在幼兒園時期,孫瑩就喜歡到母親的單位去“鼓搗”電腦,幾歲的孩子還什么都不懂,但那個滿載數(shù)據(jù)的“魔盒”就在冥冥之中成了最吸引她的游戲。到小學三年級時,她已經(jīng)可以熟練操作電腦,并在一腳剛邁入初中校門時就開始接觸編程興趣班。對于她來說,跟計算機打交道比跟人打交道要簡單,也更能激發(fā)探索欲?!拔揖褪乾F(xiàn)在大家口中常說的那種‘社恐’人?!彼龝r常如此評價自己。中學時期,這一性格特點暴露得越來越明顯,打游戲、編程、下棋……孫瑩總在課余時間享受著獨處的樂趣,但這并不意味著自我與封閉。相反,在朋友眼中,她是個爽朗大氣的人,且是個即便有愛好消遣也不會耽誤學習的“學霸”,“理工科極強”“年級第一”等標簽一直被她掛在身上。

站在選擇人生路徑的路口,對許多人而言難做決定的高考報志愿卻并沒有花費孫瑩太多的精力,早早就奠定了對計算機學興趣的她只需要簡單地動動筆,就能讓曾經(jīng)的夢想初步照進現(xiàn)實。而事實也的確如此——2013年進入北京理工大學軟件工程專業(yè),2022年博士畢業(yè)于中國科學院計算技術(shù)研究所,孫瑩的求學路徑一直與計算機息息相關(guān)?!皩ξ叶裕@一直是一個可以讓人安靜思考的專業(yè)。”她概括道。

或許正因入讀了自己的興趣專業(yè),在為期數(shù)年的求學歲月里,孫瑩一直不覺得有難以應付的吃力困境出現(xiàn),“再難再累我也甘之若飴”。在這樣的信念下,她不僅將國家獎學金從本科到博士一路拿了下去,還被班上同學冠以“孫大神”的稱呼。2016年,她與學院其他兩位同學組成了“大鱷魚愛洗澡隊”,成功入圍了ACM國際大學生程序設(shè)計競賽世界總決賽,更鑿實了自己在班里的“封神之路”。畢竟,在許多人眼中,在電子信息等相關(guān)領(lǐng)域在我國尚未騰飛的年代,大賽獎項還幾乎是少數(shù)男性的“統(tǒng)治區(qū)”,孫瑩卻能以女性學生身份從容自信地立身于其中,背后的付出遠不是一句“挺努力”便能概括的。所以在那一年留下的紀念照片里,她笑得格外燦爛明媚。

但與此同時,孫瑩很明白,榮譽終究只屬于過去。所以,當沖向世界平臺的激情與欣喜逐漸褪去,她很快又恢復到一個人泡圖書館閱讀文獻、一個人做研究的平靜生活,而時間也在這樣日復一日的知識攝入中流逝得極快,前往中國科學院計算技術(shù)研究所(簡稱“計算所”)碩博連讀的機遇很快便來到了眼前。

對孫瑩而言,在計算所深造,同時進入百度集團開展實習的經(jīng)歷使她受益頗深。因為這段走出“象牙塔”的日子讓她真正有了一種“天將降大任于斯人也”的感覺,以致使她迫使自己盡快成熟,從單純的計算機學理論世界中走出,腳踏實地、真情實感地接觸精密運轉(zhuǎn)的人類社會,洞察群眾的真正需求,甚至,還開始錘煉自己在管理方面的素養(yǎng)。

說來也巧,孫瑩進入百度集團的時候恰逢百度人才智庫疾速發(fā)展的改革時期,當如此重任落在一位初出茅廬的青澀研究者身上,會發(fā)生什么?在后續(xù)幾年里,孫瑩用持續(xù)的努力交上了這份答卷。

百度人才智庫簡稱“百度TIC”,是百度在2015年組建的專注于“AI+人才管理計算”方向的數(shù)據(jù)科學團隊,旨在通過人工智能和大數(shù)據(jù)分析手段輔助現(xiàn)代企業(yè)的人才管理,推動企業(yè)人才管理從經(jīng)驗導向型向數(shù)智化導向型的變革,通過智能預測、異常診斷、文本挖掘、社交網(wǎng)絡(luò)分析、機器學習等數(shù)字化技術(shù)為人才管理者提供智能化決策建議。通俗來講,“AI+人才管理計算”能快速評估一位求職者過往的經(jīng)歷、技能與產(chǎn)出,來匹配合適的薪酬,這將會使企業(yè)決策更加透明高效,不再以主觀評價的方式選人用人;同時也有助于求職者查漏補缺,知曉現(xiàn)在專業(yè)對口的勞動力市場上,自己需要提升哪些有針對性的技能,才能獲得更好的競爭力。

這個系統(tǒng)就是孫瑩幾年工作的重中之重。她要做的便是讓一切評價標準都盡量客觀、可量化:什么樣的技能在當時的市場上能夠贏得更多分值,什么樣的經(jīng)歷和職位能更加匹配……AI都能在短時間內(nèi)迅速尋覓到與崗位最匹配的人。這份對人才資源大有助益的工作最終還發(fā)布在了《自然》(Nature)的子刊上。

“當模型效果不達預期,雖然表面上看不出,但她其實內(nèi)心會非常在意”“即便是一處微小的優(yōu)化也會讓她反復琢磨上好幾天”“寧愿耽誤一個月,也不會輕易放過任何一個問題”……這些是曾經(jīng)的合作者對孫瑩的描述與評價,足可見她對于科研的執(zhí)著與堅持。而這份“能坐冷板凳”的沉著和不焦躁的性子,是內(nèi)向性格的另一面——專注力帶給她的,是天賜的禮物,讓她能沉下心去撰寫博士論文,并最終憑借《面向人才評估的可解釋神經(jīng)網(wǎng)絡(luò)算法研究》入選中國計算機學會博士學位論文激勵計劃。

塑造明日世界

2022年,27歲的孫瑩正式加入香港科技大學(廣州)人工智能學域,成為一名不折不扣的青年助理教授。與此同時,她要面臨的行政瑣事越來越多,學生時代不想交際、獨挑大梁式的工作模式不再適用于現(xiàn)階段的職業(yè)發(fā)展,帶組做課題和多人協(xié)作越來越頻繁,人際關(guān)系溝通的壓力與教學工作的壓力一度令她束手。但是,本著“從事更多底層技術(shù)研究”的務實念頭,向著“做出推動世界研究”的高遠目標,山高路遠,孫瑩只能風雨兼程。

心中“社恐”就努力和大量同行、學生接觸,敞開心扉;同時約束自己不再使用類似“不就是這樣做”的否定口吻與別人展開對話;在課堂上,孫瑩也開始嘗試多種教學形式,并與生活聯(lián)系,插入現(xiàn)實實例以引發(fā)同學們的學習興趣……她做得越多,前路就越明朗,科研的靈感也在逐漸釋放自我的過程中得到了升華,國家自然科學基金青年基金項目與廣東省級面上項目,也接踵而至。

在國家自然科學基金青年基金項目“基于高表達自歸因結(jié)構(gòu)的可解釋神經(jīng)網(wǎng)絡(luò)研究”中,孫瑩選擇從神經(jīng)網(wǎng)絡(luò)自身可解釋性的角度出發(fā),從神經(jīng)網(wǎng)絡(luò)內(nèi)部特征作用與解釋性對表達性的約束作用兩個方面,開展高表達自歸因神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)研究。雖然項目還在如火如荼地進行之中,但其帶來的積極成果已具雛形:首先,孫瑩協(xié)同研究團隊將合作博弈理論引入網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計,明確量化因果關(guān)系感知的歸因值,并基于線性插值和局部原型學習,進一步開展高維輸入的概念信息提取,將自歸因擴展到概念層,同時保證復雜輸入上的高表達特征提取能力。最終,基于概念符號的透明信息變換過程將有望成為現(xiàn)實。

從研究方法上講,此項目是融合了事后解釋算法、經(jīng)典機器學習算法、黑盒神經(jīng)網(wǎng)絡(luò)優(yōu)勢的“集大成之作”。探索邏輯透明的高表達白盒神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)極有望實現(xiàn)符號化、符合人類認知的神經(jīng)網(wǎng)絡(luò)模型,這不僅意味著人工智能高解釋性與高準確性的融合共存,也將賦能更多的可信人工智能決策。

▲團隊合影

如果說國家自然科學基金青年基金項目研究是孫瑩順應時代發(fā)展趨勢,“塑造明日世界”的奮力一搏,那么廣東省面上項目“基于神經(jīng)網(wǎng)絡(luò)的可解釋圖結(jié)構(gòu)學習算法研究”則是其筑夢路上的又一力作?!皥D結(jié)構(gòu)學習旨在從數(shù)據(jù)中推斷節(jié)點之間的連接關(guān)系和拓撲結(jié)構(gòu),是人工智能研究的基礎(chǔ)問題之一。傳統(tǒng)圖結(jié)構(gòu)學習方法大多基于先驗知識和規(guī)則提取而難以考慮非線性的復雜關(guān)聯(lián),深度學習技術(shù)等人工智能技術(shù)卻可以彌補,即從數(shù)據(jù)中自動提取復雜特征和關(guān)聯(lián)。但是,隨著人工智能可信性問題的涌現(xiàn),神經(jīng)網(wǎng)絡(luò)可解釋性的缺乏極大限制其在圖結(jié)構(gòu)學習中的應用?!睂O瑩將自己的立項考量娓娓道來,并表示,自己和團隊正在以復雜關(guān)聯(lián)結(jié)構(gòu)挖掘和圖結(jié)構(gòu)可解釋性建模兩方面關(guān)鍵的科學問題為切入點,力爭賦能下游圖任務中的可信人工智能決策。

數(shù)據(jù)挖掘師的工作,仿若古老織錦的制作過程——從雜亂無章又亂中有序的“線”中理出一條脈絡(luò),再用統(tǒng)計學和機器學習的工具作為“梭子”,在算法的織機上來回穿梭,織出一幅包含知識、信息的精美圖畫??梢哉f,在此項工作的進程之中,既飽含著對過往的反思,也考驗從業(yè)者對當下社會的洞察。他們既如同數(shù)據(jù)泛濫時代下的燈塔,也如全新時代的知識工匠,用自己的智慧和手段,將冰冷的數(shù)據(jù)轉(zhuǎn)化成可靠的依據(jù),使每位決策者得以避免在浩瀚的數(shù)據(jù)海洋中迷失方向。

專家簡介

孫瑩,香港科技大學(廣州)人工智能學域助理教授,2017年本科畢業(yè)于北京理工大學,2022年畢業(yè)于中國科學院計算技術(shù)研究所。主要從事的研究方向為可解釋人工智能、數(shù)據(jù)挖掘及其在社會科學等相關(guān)領(lǐng)域的交叉應用。近5年來,孫瑩在《自然·通訊》(Nature Communications)、《自然·城市》(Nature Cities)、《IEEE知識與數(shù)據(jù)工程匯刊》(IEEE Transactions on Knowledge and Data Engineering)、《ACM智能系統(tǒng)與技術(shù)匯刊》(ACM Transactions on Intelligent Systems and Technology)及“ACM SIGKDD知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議”(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)等學術(shù)期刊和會議發(fā)表論文30余篇,并申請國內(nèi)外專利十余項,多項科研成果實現(xiàn)了產(chǎn)品應用轉(zhuǎn)化,被《中國日報》、光明網(wǎng)等權(quán)威媒體廣泛報道。另外,她曾獲中國計算機學會(CCF)博士學位論文激勵計劃,中國科學院朱李月華獎,華為最佳創(chuàng)新合作獎、火花獎,百度獎學金全球20強,3次國家獎學金,國際大學生程序設(shè)計競賽(ACM-ICPC)亞洲區(qū)域賽季軍、世界總決賽入圍等榮譽。

評論
柳營村 張兆友
儒生級
2024-12-20
內(nèi)蒙古????李有忠
少傅級
了解一下
2024-12-19
東邪西毒南帝北丐
進士級
2024-12-19