版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

逼真實時“數(shù)字人”是如何生產(chǎn)出來的?

靠譜的阿星
原創(chuàng)
互聯(lián)網(wǎng)商業(yè)模式觀察家
收藏

文:靠譜的阿星

數(shù)字技術(shù)是信息時代的引擎,當前AR、VR以及3D技術(shù)重新引發(fā)人們關(guān)注,必將在可視化、高精度化為信息世界帶來重塑。

比如我們近年來看到的一些新的國漫電影已經(jīng)不能視為卡通片,其人物、場景的光影渲染和逼真效果足以比真人出鏡的電影更為震撼,叫好又叫座;其幕后的數(shù)字技術(shù)開發(fā)團隊依靠劇本和故事脈絡制作DEMO從而尋找到意向投資人,不僅減少了資方的風險,也讓觀眾能看到更多新銳、新穎的作品。

實際上除電影以外,還有一些虛擬形象IP、廣告片、樓宇橋梁建筑設(shè)計、工廠規(guī)劃圖、室內(nèi)裝飾全景、汽車(全景)預定等等都需要用到3D以及AR視覺化設(shè)計的數(shù)字技術(shù),以呈現(xiàn)出預期逼真的藍圖效果或制造出用戶線上互動的交互界面。

很多人不知道的是,這種數(shù)字技術(shù)和工具最早是在游戲開發(fā)中應用成熟之后,逐漸“外溢”到其他行業(yè)和應用場景的,并且底層開發(fā)工作和操作系統(tǒng)就是虛幻引擎(Unreal Engine,以下簡稱“UE”),這家公司可以說是網(wǎng)絡游戲和視覺設(shè)計領(lǐng)域的安卓或者蘋果,外界一直難窺其貌。

我們更近一步追問,UE是否可以在數(shù)字世界之中用類似的技術(shù)手段來模擬人而非是卡通式的動畫,類似于《三體》VR游戲之中用歷史名人來親歷三體環(huán)境一樣。答案是肯定的,相關(guān)技術(shù)條件以及工具完全具備,因為在大量游戲和電影場景之中人物的逼真度都要求相應的開發(fā)工具必須使得人物的面孔、眼鏡、皮膚、頭發(fā)以及走動光影變化等足夠的細膩逼真。

所謂“逼真、實時數(shù)字人”并非是虛擬創(chuàng)作的IP或者二次元形象,實際上是真人,逼真、實時的“數(shù)字人”,阿星理解是真實的人三維化,類似于是數(shù)字化的“杜莎夫人館”,并且是能夠適應于普通人的,因此其技術(shù)突破和迭代可能對于AR、VR等普及化、大眾化意義重大。

(杜莎夫人館中陳列的真人明星蠟像)

逼真、實時數(shù)字人究竟是如何生產(chǎn)出來的,又將應用在哪些場景之中,當前的發(fā)展瓶頸在哪里?筆者有幸請教中國人民大學產(chǎn)業(yè)研究院助理院長、文化科技融合中心主任宋震,以及北京理工大學廣電學院光電信息技術(shù)與顏色工程研究所研究員翁冬冬,他們是高校相關(guān)專業(yè)研究的權(quán)威,在“數(shù)字人”呈現(xiàn)和探索處于前沿。

一、用游戲開發(fā)全套工具和系統(tǒng)來做“逼真、實時數(shù)字人”先來介紹下,虛幻引擎是游戲公司 Epic Games所開發(fā)的操作系統(tǒng),能夠為游戲開發(fā)者提供大量游戲開發(fā)之中所需要的核心技術(shù)、數(shù)據(jù)生成工具以及基礎(chǔ)支持,也就是說,UE使得游戲開發(fā)者不需要從0開始寫代碼做每一幀的畫面或者設(shè)計相應場景,讓游戲開發(fā)者更加聚焦于故事和難度設(shè)置上,回歸到游戲本身,讓開發(fā)變得更加輕松。

在數(shù)字世界之中,這就需要UE本身不斷迭代技術(shù)和工具包,以滿足線上數(shù)字世界游戲化、交互化以及游戲世界逼真化、動態(tài)化的需求,用越來越特效、逼真的圖像處理來對畫面進行更為真實、更為細致的全面刻畫。

截止2021年虛幻引擎已經(jīng)更新到UE5,主要基于Nanite(虛擬微多邊形幾何體)和Lumen(動態(tài)全局光照)的核心技術(shù)以及支持上億、幾十億甚至無上限的三角面的渲染,不僅為游戲開發(fā)和設(shè)計師創(chuàng)意提供了廣闊的舞臺,還能夠廣泛應用在人、物、故事以及各種內(nèi)容之中。

在游戲世界之中,最難表現(xiàn)的依然是人,因為如果是真實、逼真的人的話,他的面孔或表情是隨著年齡、心情、狀態(tài)而發(fā)生變化的,在不同場景之中,人們的眼神、光線以及腳步、身形等都是很難用虛擬想象進行刻畫。正如現(xiàn)實生活刻畫精彩有時勝過于小說,而真實記錄數(shù)字人工作量實際上也遠遠高于虛擬創(chuàng)作人物。比如12月份網(wǎng)易云在港上市就有兩個數(shù)字人“丁磊”在線上敲鐘,有網(wǎng)友認為是丁磊的美顏版,實際上這與真正的“數(shù)字人”還有差距,尤其是在面部表情上,觀眾還是能夠一眼看出來“不夠逼真”。

人們判斷一個數(shù)字人逼真不逼真、鮮活不鮮活最重要的關(guān)注點是在表情上。宋震說:“人對于表情差異是非常敏感的,人的臉上有70多塊肌肉,能夠產(chǎn)生很多復雜和微妙的變化,面孔以及表情數(shù)字化是數(shù)字人的重點和難點?!?/p>

制造逼真實時數(shù)字人,首先需要對模特或者原型人物進行“照相”采集工作,主要是基于測量攝影的孿生數(shù)字人方案,通過球形梯隊照明采集模特在不同光影明暗之下的微表情變化,通過對素材(照片為RAW文件)進行校色、摳像并對面部數(shù)據(jù)處理和渲染等處理之后進行綁定在系統(tǒng)之中,據(jù)了解,一個逼真實時數(shù)字人可能有200個G原始素材。

據(jù)宋震老師介紹,逼真實時數(shù)字人創(chuàng)造流程主要分為“光影采集”、“數(shù)據(jù)清理”、“重拓撲”、“貼圖處理”、“綁定”、“毛發(fā)制定”、“導入UE”、“光照和氛圍”、“動態(tài)測試"等九個步驟,這些步驟組合起來都需要UE的深度參與。

(宋震老師演講逼真、實時數(shù)字人的生產(chǎn)流程)

要讓專業(yè)制造高精度實時數(shù)字人能夠保持表情實時變化以及相應的摳像處理、光影變化、聲音匹配等都需要用到Metahuman工具。宋震老師說:“虛幻引擎在2021年上半年推出了Metahuman工具,很快就在3D數(shù)字人領(lǐng)域樹立了行業(yè)標桿和標準?!?/p>

由于Metahuman不只有強大的創(chuàng)意工具比如數(shù)字人材質(zhì)系統(tǒng)、動畫系統(tǒng)等降低項目復雜度,還能夠借助于光學掃描設(shè)備,Metahuman的技術(shù)管線能夠極大的提高生產(chǎn)效率和表現(xiàn)效果,目前的數(shù)字人生產(chǎn)管線也能夠遷移到Metahuman上,實現(xiàn)了很好的兼容。

在數(shù)字人創(chuàng)建過程中,不只是用到一兩個DCC(數(shù)字內(nèi)容生成)工具,包含著很多復雜完整的生態(tài)之中。翁冬冬老師說“虛幻(引擎)不只是實時可視化的工具,還是整個逼真實時數(shù)字人的平臺,甚至稱之為操作系統(tǒng)也不過。因為所有數(shù)字人(資產(chǎn))生成、開啟使用都得使用UE,虛幻引擎實際上是把各種各樣的工具匯聚在一起,而這是操作系統(tǒng)最有價值的?!?/p>

虛幻引擎在制作3D數(shù)字內(nèi)容生產(chǎn)之中提供的便利就好比一個廚師要為客戶制造美味可口的菜肴,不需要親自去購買各種廚具或者去菜場買菜,很多案臺、鍋碗、調(diào)料都已經(jīng)準備妥當,更加便于廚師發(fā)揮自己的廚藝。

二、高精度逼真實時數(shù)字人已能夠生產(chǎn),突破口是歷史名人數(shù)字化逼真數(shù)字人作為3D呈現(xiàn)的“照片”和“影像”,隨著各種數(shù)字人生成技術(shù)的成熟,會逐漸成為現(xiàn)實并應用到VR(虛擬現(xiàn)實)和AR(增強現(xiàn)實)的設(shè)備之中呈現(xiàn)。

宋震老師在演講之中強調(diào),虛幻引擎的Metahuman與RTX(光線追蹤技術(shù))相結(jié)合渲染質(zhì)量會更加好,未來與AI技術(shù)深度結(jié)合,未來高精度的虛幻人將會很快出現(xiàn),并且虛擬人的定制會在直播、演唱會等表演場景之中率先應用。

除現(xiàn)實場景數(shù)字人出現(xiàn)以外,這樣的技術(shù)實際上還是能夠幫助人們?nèi)セ謴鸵恍┲麣v史人物,讓歷史IP走進人們的現(xiàn)實世界之中,比如我們曾經(jīng)在歷史上看到的一些著名歷史人物的畫像,很多是后代畫家找神態(tài)類似的人臨摹的,實際上逼真數(shù)字人技術(shù)有望和很多博物館以及相關(guān)機構(gòu)深度合作的。

翁冬冬老師說:“團隊希望能做出一套中華名人的標準數(shù)字資產(chǎn),尤其從近代有照片的名人入手來推動”。他在虛幻引擎技術(shù)開放日上介紹了團隊對梅蘭芳先生的數(shù)字人生產(chǎn)的樣本案例。

翁冬冬老師說,“北京理工大學聯(lián)合中央戲劇學院負責通過高保真實時數(shù)字技術(shù)對梅蘭芳先生進行復現(xiàn),這將成為國內(nèi)第一套真正意義上的京劇數(shù)字人項目。”

據(jù)了解,翁老師團隊對梅先生的影像資料、照片以及舞臺場景進行大量的研究和還原工作,從工藝、動作、服飾、文玩進行研究,通雕刻構(gòu)建高精度實體模型,再采用UE數(shù)字雕刻方式對掃描數(shù)據(jù)進行反復精修,基于引導線的構(gòu)建方式對發(fā)型等進行高保真發(fā)束,以真實立體裁衣為基礎(chǔ)構(gòu)建高保真服飾等等,最終制作出梅蘭芳先生的3D數(shù)字人。

數(shù)字人將結(jié)合VR和AR,以三維的形式呈現(xiàn)在觀眾面前,假設(shè)用戶想看梅蘭芳先生的表演不是在電視屏幕或者是投影薄膜上進行觀賞,而是面對面和“真人”進行交流。

翁冬冬老師說:“凡是需要有真人或者真實的場景出現(xiàn),都可以應用數(shù)字孿生技術(shù)進行還原。站在商業(yè)化角度看來,實際上數(shù)字人本身也是一種生產(chǎn)工具,能以高逼真數(shù)字人為數(shù)字資產(chǎn)或者IP來創(chuàng)造影視劇或者拍視頻。而在有人的地方,用人來生產(chǎn)內(nèi)容的地方,數(shù)字人都可以派上用場。”

當前在國內(nèi),數(shù)字人產(chǎn)業(yè)鏈和研發(fā),在北京、上海、深圳等大城市已經(jīng)落地和推進。翁冬冬老師給出預測,“真實逼真數(shù)字人會成為未來三年后的發(fā)展方向?!?/p>

當然,對于實時、逼真數(shù)字人本身相應的知識產(chǎn)權(quán)和法律完善也是兩位老師研究課題,畢竟技術(shù)發(fā)展往往需要相應的監(jiān)管隨時跟上腳步。

結(jié)語從人類歷史就是一部分人的再呈現(xiàn)角度來看,逼真實時數(shù)字人實現(xiàn)了人從二維化電子屏式呈現(xiàn)到三維式的實時呈現(xiàn),這的確是一項了不起的技術(shù)發(fā)展;其生產(chǎn)借助于虛幻引擎(UE)開發(fā)工具以及操作系統(tǒng)予以完成,未來還將逐漸輕便化、簡捷化,在專業(yè)門檻上降低準入門檻,讓更多人實時遠程精準呈現(xiàn)不再是難事,無論是影視創(chuàng)作還是商業(yè)化都有巨大的想象空間,有關(guān)數(shù)字人相應的資產(chǎn)生成、保護、流轉(zhuǎn)、使用逐漸也會引人關(guān)注。面對這一技術(shù)創(chuàng)新,將會帶來商業(yè)世界的深遠影響,現(xiàn)在依然處在積極探索早期階段。

▼作者簡介

靠譜的阿星(李星),公眾號:靠譜的阿星,《媒體化戰(zhàn)略》一書作者