2020年11月20日,由中國科學(xué)技術(shù)協(xié)會主辦,中國國際科技交流中心、中國人工智能學(xué)會、新加坡通商中國承辦的“中新數(shù)字經(jīng)濟與人工智能高峰論壇”云端召開。主題報告環(huán)節(jié),新加坡南洋理工大學(xué)計算機科學(xué)與工程學(xué)院副院長林維斯教授帶來了《視覺協(xié)同智能及產(chǎn)品化前景》的精彩演講。
林維斯
新加坡南洋理工大學(xué)計算機科學(xué)與工程學(xué)院副院長、教授
以下是林維斯教授的演講實錄:
視覺協(xié)同智能和其產(chǎn)品化的前景是我們團隊和其他團隊共同感興趣,并進行合作的一個研究課題。
實現(xiàn)視覺智能,我們現(xiàn)在用不同的儀器和設(shè)備來收集視頻數(shù)據(jù),包括手機、機器人、監(jiān)控攝像頭,以及一些車載的設(shè)備。傳統(tǒng)上收集了圖像或視頻信號數(shù)據(jù)后,將整個圖像視頻信號傳到云端的數(shù)據(jù)中心。怎么傳送這些數(shù)據(jù)?首先,將所有的視頻信息進行壓縮后,直接傳送到云端,主要的智能計算都是在云端完成。現(xiàn)在,視頻信息壓縮技術(shù)很成熟,一般只有數(shù)據(jù)壓縮是邊緣計算。
把所有信號傳送到云端,信道和云端負荷很大,最終用戶端也可能需要擔(dān)負大量的計算和能耗。除了把整個圖像視頻信號傳到云端,也可以在邊緣端加工圖像或視頻信號,收集視頻中云端和用戶端可以真正用得到的信號特征。CDVS 是現(xiàn)有的特征提取壓縮技術(shù),專門用于圖像檢索。能否在邊緣端進行數(shù)據(jù)提取加工,用于眾多不同的視覺智能相關(guān)應(yīng)用場景?我們可以把常用的神經(jīng)網(wǎng)絡(luò)算法中間層提取的信號特征進行壓縮編碼,把它輸送到云端;云端可以接著對這些中間層特征進行進一步處理(如采用淺度學(xué)習(xí)網(wǎng)絡(luò))去解決相關(guān)的應(yīng)用場景問題。從根本上說,這是一個邊緣端和云端(或用戶端)協(xié)同智能的問題,針對不同應(yīng)用場景需求可以靈活實現(xiàn)各端負荷均衡和資源分配。這種做法的優(yōu)勢如下:
第一,有利于面向機器的視覺智能范式拓展。傳統(tǒng)圖像視頻信號處理基本是面向人類視覺系統(tǒng)的,即假設(shè)人類是圖像視頻信號處理的最終用戶。大量視覺信號還會繼續(xù)服務(wù)于人類,但隨著人工智能技術(shù)更廣泛的應(yīng)用,越來越多的機器將成為視覺信號的最終用戶。上述的中間層(深度學(xué)習(xí)層)特征適用于這個范式的改變。
第二,設(shè)立的中間層特征包括了適用于各類應(yīng)用場景最基本的視覺形態(tài)。它可以直接降低從邊緣端傳到云端的負荷,也可以讓整個系統(tǒng)負荷均衡,資源合理使用,靈活適應(yīng)新任務(wù)。
第三,它提供了解決大家擔(dān)心的圖像視頻信號隱私問題的方案。由于中間層特征不涉及整張圖片或整個視頻信號,這就意味著隨后在云端和用戶端的傳輸、存儲和加工過程中可以減少信息安全隱患及應(yīng)對費用。
第四,視覺信號特征提取會更加準確(無論是采用機器學(xué)習(xí)方法與否)。傳統(tǒng)的圖像視頻信號處理的流程是信號壓縮編碼 ( 邊緣端 )—信號解碼(云端或用戶端)—特征提取(云端或用戶端)—智能任務(wù)完成 (云端或用戶端);基于中間層特征方案的流程是特征提取 ( 邊緣端 )—特征壓縮編碼 ( 邊緣端 )—特征解碼(云端或用戶端)— 智能任務(wù)完成(云端或用戶端)。后者是在抽取完特征之后才進行壓縮和傳輸,所以避免壓縮和傳輸誤差對特征提取精度的影響。
第五,新方法可能降低用戶端的要求和能耗。假如我們讓所有用戶端去完成重復(fù)的特征提取,每個用戶端須具備較強的運算能力并浪費眾多終端的能源。如果一次性在邊緣端提取中間層特征,就可以省掉很多運算及用電的環(huán)節(jié)。整個流程的效率提高會隨著終端數(shù)目增加而變得更加明顯。
在整個新流程中實現(xiàn)標(biāo)準化,可以更好地促進應(yīng)用產(chǎn)品化進程,包括新一代的視頻監(jiān)管、機器人、自動駕駛等。AVS 標(biāo)準已經(jīng)采納了基于中間層特征編碼提案,而 MPEG 和 JPEG 等標(biāo)準也開始了面向機器智能的圖像視頻編碼標(biāo)準化工作。
圖像視頻壓縮編解碼技術(shù)取得了巨大的成功,但經(jīng)過過去 30 多年來學(xué)術(shù)界和工業(yè)界不斷研究和優(yōu)化 , 現(xiàn)有的標(biāo)準技術(shù)框架的發(fā)展空間已經(jīng)越來越小。為應(yīng)對這一挑戰(zhàn)及面向機器智能的新時代需求,希望以上討論的從邊緣端提取中間層特征的可能性和前期的一些工作,能為未來圖像視頻編碼及智能實現(xiàn)提供一個新的角度與起點。
(本報告根據(jù)速記整理)