隨大語(yǔ)言模型與生成式AI浪潮席卷全球,3D內(nèi)容生成或?qū)⒂瓉?lái)自己的ChatGPT時(shí)刻。3D內(nèi)容生成作為新興3D資產(chǎn)制作手段,為內(nèi)容創(chuàng)作模式帶來(lái)了新的變革,極大促進(jìn)了3D數(shù)字化內(nèi)容生產(chǎn)的效率提升,引起業(yè)界的廣泛關(guān)注。本文探討了3D內(nèi)容生成技術(shù)的主流方法及其應(yīng)用領(lǐng)域,尤其在文生3D和圖生3D方面,業(yè)界已取得不少有代表性的進(jìn)展。預(yù)計(jì)3D內(nèi)容生成將在游戲、電影、通信等領(lǐng)域有廣泛的應(yīng)用,推動(dòng)數(shù)字內(nèi)容生態(tài)的繁榮發(fā)展。
1、3D內(nèi)容生成簡(jiǎn)介
從最初的基于幾何建模的手工創(chuàng)作,到如今的海量數(shù)據(jù)驅(qū)動(dòng)的AIGC 3D生成,3D內(nèi)容創(chuàng)作的發(fā)展經(jīng)歷了以下多個(gè)階段。
①手工3D建模階段:從1960年代起,計(jì)算機(jī)3D圖形學(xué)的基礎(chǔ)理論逐漸確立,研究人員提出了如多邊形網(wǎng)格、樣條曲線和NURBS曲面等各種建模技術(shù),并開(kāi)始利用光柵化和光線追蹤算法生成更加逼真的圖像。初期3D內(nèi)容的生成依賴于專業(yè)人員使用建模軟件進(jìn)行手動(dòng)創(chuàng)建,早期的3D建模方法和工具較為原始,3D模型的創(chuàng)建主要依靠藝術(shù)家和設(shè)計(jì)師使用專業(yè)軟件手工建模,工作流程包括幾何建模、紋理貼圖、光照設(shè)置等,整個(gè)過(guò)程耗時(shí)且成本較高。這一時(shí)期的3D內(nèi)容生成工作量大、耗時(shí)長(zhǎng),對(duì)建模人員的技術(shù)要求較高。
②基于掃描與重建階段:隨著計(jì)算機(jī)硬件和傳感器技術(shù)的發(fā)展,3D掃描與自動(dòng)化重建技術(shù)逐漸興起,激光掃描和結(jié)構(gòu)光掃描技術(shù)能夠獲取物體和場(chǎng)景的高精度點(diǎn)云數(shù)據(jù),并重建其3D模型。這一階段,3D掃描與重建被廣泛用于文物保護(hù)、醫(yī)療成像、逆向工程等領(lǐng)域,三維模型的生成效率和精度都得到了提升,不過(guò)生成的模型通常還需要后期處理,以優(yōu)化模型效果和細(xì)節(jié)。
③基于AI的智能3D生成階段:在深度學(xué)習(xí)等技術(shù)驅(qū)動(dòng)下,3D內(nèi)容生成進(jìn)入了新的智能化階段。生成對(duì)抗網(wǎng)絡(luò)(GAN)、變分自編碼器(VAE)等模型能夠從大量數(shù)據(jù)中學(xué)習(xí)并生成新的3D內(nèi)容,被用于3D模型生成、紋理映射和風(fēng)格遷移等任務(wù)。神經(jīng)輻射場(chǎng)(NeRF)技術(shù)的提出,以及大型語(yǔ)言模型(LLM)和擴(kuò)散模型(DM)的發(fā)展,進(jìn)一步推動(dòng)了3D內(nèi)容生成的能力,現(xiàn)階段3D內(nèi)容生成模型具備了從文本、圖像中生成對(duì)應(yīng)3D模型的能力:
1)文生3D(Text-to-3D)是指通過(guò)輸入文字描述來(lái)生成對(duì)應(yīng)的3D模型。使用自然語(yǔ)言作為與用戶交互的方式已經(jīng)愈發(fā)成熟,這種生成方式具有高度的靈活性和創(chuàng)造性,用戶可以通過(guò)簡(jiǎn)單的文字描述表達(dá)自己的創(chuàng)意和需求,然后由生成式模型生成相應(yīng)的3D模型。文生3D中,生成質(zhì)量、多樣性和效率是目前業(yè)界關(guān)注的關(guān)鍵問(wèn)題。
2)圖生3D(Image-to-3D)是指通過(guò)輸入二維圖像來(lái)生成三維模型。這種方法通常利用了深度學(xué)習(xí)等技術(shù),通過(guò)對(duì)大量二維圖像數(shù)據(jù)的學(xué)習(xí),能夠從一張二維圖像中推斷出物體的三維形狀和結(jié)構(gòu)。例如一些應(yīng)用允許將用戶上傳的照片轉(zhuǎn)換為3D模型,為用戶提供更加生動(dòng)的視覺(jué)體驗(yàn)。此外還可以通過(guò)布局或線稿引導(dǎo)來(lái)生成相應(yīng)的3D模型。例如,在建筑設(shè)計(jì)中,設(shè)計(jì)師可以通過(guò)提供建筑的平面圖和剖面圖,由3D生成式系統(tǒng)生成建筑的3D模型。3D模型細(xì)節(jié)還原性、形狀和結(jié)構(gòu)推斷準(zhǔn)確性等是目前業(yè)界普遍關(guān)注的關(guān)鍵問(wèn)題。
2、3D內(nèi)容生成分類
按生成內(nèi)容類別的不同,3D內(nèi)容生成可以進(jìn)一步細(xì)化為物體生成、場(chǎng)景生成、人體生成、人臉生成。
①物體生成:物體生成主要聚焦從文本或圖像中生成特定類別的3D物體模型,通常也是三維環(huán)境及場(chǎng)景生成的基礎(chǔ)。Text2Shape(2018)是首個(gè)嘗試?yán)米匀徽Z(yǔ)言描述生成3D形狀的工作,基于Conditional Wasserstein GAN。Nvdia的GET3D(2022)提出了一種可以生成高質(zhì)量紋理3D形狀的生成模型,能夠生成顯式紋理3D網(wǎng)格。
②場(chǎng)景生成:場(chǎng)景生成的難度比單個(gè)物體更大,因?yàn)樗枰紤]物體之間的空間關(guān)系,可以創(chuàng)建豐富多樣的場(chǎng)景,為游戲、建筑設(shè)計(jì)、工業(yè)設(shè)計(jì)等行業(yè)提供強(qiáng)大的支持。DreamScene(2024)基于顯式表征3D高斯?jié)姙R(3DGS),通過(guò)文本生成高質(zhì)量、視角一致且可編輯的3D場(chǎng)景。斯坦福與MIT近期推出WonderWorld(2024),實(shí)現(xiàn)了從單一圖像出發(fā)在用戶實(shí)時(shí)交互下生成無(wú)限延展的3D場(chǎng)景,將交互式3D世界生成推向?qū)崟r(shí)門檻。
③人體生成:人體生成技術(shù)關(guān)注于生成逼真的數(shù)字人模型,精確創(chuàng)建逼真的人體模型在游戲、影視制作等領(lǐng)域具有廣泛應(yīng)用。較早的SMPL(2015)提出了一種可變形的人體模型,這種用于3D人體建模和姿態(tài)估計(jì)的參數(shù)化模型能夠精確地表示不同的人體形狀和姿態(tài),幾乎成為實(shí)質(zhì)性的3D數(shù)字人驅(qū)動(dòng)標(biāo)準(zhǔn)。近期工作MagicMan(2024)是一種從單一參考圖像生成高質(zhì)量多視角人像的方法,它提出了一種高效的混合多視角注意力機(jī)制,以生成更密集的多視角人像,同時(shí)保持更好的3D一致性。
④人臉生成:人臉生成技術(shù)能夠從文本或圖像中生成各種不同風(fēng)格的人臉模型,可應(yīng)用于虛擬現(xiàn)實(shí)、社交娛樂(lè)等領(lǐng)域,用戶可以通過(guò)3D生成模型創(chuàng)造自己獨(dú)特的虛擬人臉,具有高度的個(gè)性化和可定制性。例如,ChatAvatar(2023)支持生成3D人臉,其運(yùn)用了對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型,用戶可提供詳細(xì)描述或者上傳一張圖片,ChatAvatar會(huì)生成一系列3D頭像候選項(xiàng),支持導(dǎo)入到主流的3D軟件中進(jìn)行進(jìn)一步編輯優(yōu)化。
3、3D內(nèi)容生成方法
近年來(lái)3D內(nèi)容生成技術(shù)不斷推陳出新,不同方法側(cè)重點(diǎn)不同,各有優(yōu)勢(shì),將3D內(nèi)容生成方法歸納為以下三類:
①3D原生生成方法:3D原生生成方法是利用深度學(xué)習(xí)模型學(xué)習(xí)3D數(shù)據(jù)集,并直接生成物體或場(chǎng)景的三維模型。早期以3D原生生成方法為主,這種方法的優(yōu)勢(shì)在于可以生成較高質(zhì)量的3D內(nèi)容,且畸形、殘缺控制較好,具備3D內(nèi)容直接商用的潛力。但該方法通常需要大量的3D訓(xùn)練數(shù)據(jù)集。典型的3D原生生成方法中,DreamTech提出了3D-DiT(2024),該方法使用3D變分自編碼器將3D形狀編碼到潛在空間,然后通過(guò)擴(kuò)散變換模型從這個(gè)潛在空間生成3D形狀,此外還提供了將參考圖像高分辨率信息和語(yǔ)義信息整合到3D生成過(guò)程的方法,使模型可以生成與給定參考圖一致的 3D 形狀。今年8月DreamTech又推出了Direct3D-5B版本,進(jìn)一步提升生成結(jié)果質(zhì)量精度。此外,OpenAI近年來(lái)先后發(fā)布Point-E(2022)、Shap-E(2023),前者支持使用文本生成3D點(diǎn)云,即在空間中代表3D形狀的離散數(shù)據(jù)點(diǎn)集,后者則利用神經(jīng)輻射場(chǎng)(NeRF)等隱式神經(jīng)表征,支持文本生成多樣的3D物體資產(chǎn),且收斂更快、支持紋理網(wǎng)格渲染。
②基于2D先驗(yàn)的3D生成方法:3D原生生成方法的弊端在于訓(xùn)練時(shí)依賴大量3D數(shù)據(jù)集,例如ShapeNet。不過(guò)由于2D圖像的豐富程度遠(yuǎn)遠(yuǎn)大于3D資產(chǎn),從2D圖像中學(xué)習(xí)并升維為3D數(shù)據(jù),又稱基于2D先驗(yàn)的3D生成方法,近些年來(lái)快速進(jìn)步。這種方式最大的優(yōu)勢(shì)在于無(wú)需進(jìn)行專門的3D數(shù)據(jù)訓(xùn)練,3D數(shù)據(jù)的獲取和標(biāo)注通常比2D數(shù)據(jù)更為昂貴和耗時(shí)。典型工作如Google的DreamFusion(2022),其利用改進(jìn)的得分蒸餾采樣(SDS)方法,將強(qiáng)大的2D擴(kuò)散模型的知識(shí)擴(kuò)展至3D領(lǐng)域,并采用NeRF進(jìn)行3D表征,從而提高文生3D的生成質(zhì)量,無(wú)需專門的3D訓(xùn)練數(shù)據(jù)、無(wú)需修改2D擴(kuò)散模型。隨3DGS這一顯式三維表征方法的提出,DreamGaussian(2023)將3DGS整合到生成式3D內(nèi)容創(chuàng)建流程,顯著提高基于2D先驗(yàn)生成方法的效率,與DreamFusion中基于mip-NeRF 360--一種改進(jìn)NeRF方法相比,實(shí)現(xiàn)了約10倍的加速,DreamGaussian能夠5分鐘左右完成文生3D任務(wù),相比之下DreamFusion需要大約1小時(shí)。
③基于多視圖預(yù)測(cè)的3D生成方法:基于多視圖預(yù)測(cè)的3D生成方法試圖結(jié)合3D原生生成方法和基于2D先驗(yàn)的3D生成方法的優(yōu)點(diǎn),先利用擴(kuò)散模型根據(jù)文本或圖像生成目標(biāo)對(duì)象的多角度視圖,進(jìn)一步基于多視圖進(jìn)行3D重建和生成,并采取優(yōu)化策略保證多視圖在幾何上的一致性,確保3D內(nèi)容生成質(zhì)量。典型的工作如Zero-1-to-3(2023),該方法利用大規(guī)模擴(kuò)散模型對(duì)自然圖像學(xué)習(xí)的幾何先驗(yàn)知識(shí),可以在指定的角度下生成同一物體的新視圖,但該方法生成的視圖缺乏3D一致性。UCSD的One-2-3-45(2023)在Zero-1-to-3的基礎(chǔ)上進(jìn)行了改進(jìn),在基于SDF的廣義神經(jīng)表面重建方法及優(yōu)化訓(xùn)練策略的幫助下,確保生成合理一致的3D內(nèi)容,并采用前饋傳遞的方式一次性通過(guò)神經(jīng)網(wǎng)絡(luò)生成3D網(wǎng)格,實(shí)現(xiàn)45秒內(nèi)從單一圖像到高質(zhì)量3D網(wǎng)格的生成。One-2-3-45++(2023)中則進(jìn)一步優(yōu)化了2D多視圖生成過(guò)程,通過(guò)微調(diào)2D擴(kuò)散模型來(lái)生成包含六個(gè)角度的多視圖的組合圖像,從而增強(qiáng)生成3D內(nèi)容的魯棒性和質(zhì)量。
4、3D內(nèi)容生成的應(yīng)用
3D生成的使用場(chǎng)景廣泛,在游戲、電影、通信等領(lǐng)域發(fā)揮著重要作用。
①在游戲領(lǐng)域,3D內(nèi)容生成技術(shù)在游戲行業(yè)的應(yīng)用非常廣泛,它能夠自動(dòng)化地生成游戲環(huán)境、角色和物品,為游戲開(kāi)發(fā)者提供更加高效、便捷的游戲內(nèi)容創(chuàng)作方式,從而大大提高游戲開(kāi)發(fā)的效率,并降低人力成本。除此之外,在游戲的游玩階段也可以引入3D生成技術(shù),為玩家?guī)?lái)個(gè)性化模型創(chuàng)造體驗(yàn)。例如騰訊XR實(shí)驗(yàn)室近期發(fā)布的交互式3D游戲場(chǎng)景創(chuàng)作方法,利用預(yù)訓(xùn)練的2D去噪擴(kuò)散模型生成場(chǎng)景的2D圖像作為概念指導(dǎo),從用戶的手繪草圖等隨意提示中自動(dòng)生成可交互和可玩的3D游戲場(chǎng)景,生成的3D場(chǎng)景也可以無(wú)縫地集成到游戲開(kāi)發(fā)環(huán)境中。
②在電影領(lǐng)域,三維數(shù)字內(nèi)容創(chuàng)作是電影視效中的重要一環(huán),三維技術(shù)可以拓展電影呈現(xiàn)的場(chǎng)景空間,在數(shù)字電影制作流程中,尤其在需要三維技術(shù)輔助的電影中,需要利用多種CG模型、角色來(lái)實(shí)現(xiàn)最終的成片效果,其中三維數(shù)字內(nèi)容包含了模型資產(chǎn)、材質(zhì)資產(chǎn)、動(dòng)畫(huà)資產(chǎn)等。傳統(tǒng)的三維內(nèi)容創(chuàng)作流程包括設(shè)計(jì)、建模、展UV、貼圖繪制等多個(gè)步驟,通常費(fèi)時(shí)費(fèi)力。根據(jù)文本等描述快速生成三維模型,能夠減少繁瑣的重復(fù)性工作,使創(chuàng)作者能夠?qū)⒏嗑ν度氲诫娪皠?chuàng)意和細(xì)節(jié)的打磨上,同時(shí)還減少了因設(shè)計(jì)迭代而產(chǎn)生的額外成本,有望成為電影制作中不可或缺的一部分。
③在通信領(lǐng)域,借助3D內(nèi)容生成,用戶可以在逼真的三維虛擬空間中進(jìn)行互動(dòng),以體驗(yàn)沉浸式通信效果。沉浸式通信場(chǎng)景下需要結(jié)合3D人體、3D人臉以及3D場(chǎng)景等生成技術(shù)。實(shí)時(shí)3D人體和3D人臉重建,可以創(chuàng)建通信雙方的虛擬代理人,輔助進(jìn)行數(shù)字形態(tài)之間的互動(dòng)和交流,基于攝像頭等設(shè)備捕捉用戶的姿態(tài)和面部表情,從而在點(diǎn)對(duì)點(diǎn)通信和多人遠(yuǎn)程會(huì)議等場(chǎng)景,提供更好的沉浸感和情感傳遞效果。3D場(chǎng)景和物體生成技術(shù)則為通信雙方提供更加豐富生動(dòng)的環(huán)境沉浸感,例如可以實(shí)時(shí)重建各類型3D數(shù)字場(chǎng)景,以契合當(dāng)前主題,使通信參與方能夠更加直觀地完成溝通。
5、總結(jié)與展望
盡管AIGC 3D取得了顯著的進(jìn)展,但仍面臨諸多技術(shù)挑戰(zhàn)。3D生成模型的主要瓶頸是缺乏大量高質(zhì)量的3D數(shù)據(jù)集,目前常用的3D數(shù)據(jù)集如ShapeNet(約22萬(wàn)個(gè)已分類的3D模型)或Objaverse(基礎(chǔ)版本約80萬(wàn)個(gè)3D模型、XL版本約100萬(wàn)個(gè)3D模型)包含的模型數(shù)量和細(xì)節(jié)質(zhì)量都有待提升,尤其是比起2D領(lǐng)域的大數(shù)據(jù)集,例如LAION-5B(約50億張圖像),3D數(shù)據(jù)量仍遠(yuǎn)不夠來(lái)訓(xùn)練優(yōu)質(zhì)的3D大模型。確保生成的3D內(nèi)容的質(zhì)量也是當(dāng)下面臨的挑戰(zhàn)之一,生成的3D內(nèi)容可能存在瑕疵、不完整或不符合預(yù)期的情況。例如3D人體模型中可能會(huì)出現(xiàn)比例不協(xié)調(diào)問(wèn)題,或者出現(xiàn)常見(jiàn)的Janus問(wèn)題,即在3D頭像生成中由于視角不一致而導(dǎo)致的不確定性,產(chǎn)生一個(gè)物體的正面視圖特征(如面部或頭部)錯(cuò)誤地出現(xiàn)在其他視圖中。
未來(lái),3D內(nèi)容生成將更加注重結(jié)合文本、圖像、視頻等多模態(tài)信息,以提高3D內(nèi)容生成的準(zhǔn)確性和豐富性。此外,現(xiàn)有模型往往在特定數(shù)據(jù)集表現(xiàn)良好,在面對(duì)不同領(lǐng)域和風(fēng)格的任務(wù)時(shí),需要進(jìn)一步提升其泛化能力。最后,隨計(jì)算資源的提升和算法的突破,預(yù)計(jì)將實(shí)現(xiàn)更快的3D生成速度,在低延遲甚至實(shí)時(shí)條件下生成復(fù)雜的動(dòng)態(tài)場(chǎng)景和細(xì)節(jié)豐富的三維內(nèi)容,以符合多變的3D場(chǎng)景下的業(yè)務(wù)需求。
3D內(nèi)容是數(shù)字世界不可或缺的生產(chǎn)要素,3D內(nèi)容生成技術(shù)作為一種創(chuàng)新技術(shù)手段,具有廣闊的發(fā)展前景和巨大的應(yīng)用潛力。由于真實(shí)的世界處于三維空間,3D內(nèi)容生成技術(shù)的發(fā)展也有望推動(dòng)真實(shí)世界模擬器的建立,其作為訓(xùn)練通用人工智能的重要工具,有望助力未來(lái)通用人工智能的實(shí)現(xiàn)。預(yù)計(jì)3D內(nèi)容生成將為各個(gè)行業(yè)帶來(lái)更加豐富、高效、個(gè)性化的3D內(nèi)容創(chuàng)作體驗(yàn),推動(dòng)數(shù)字內(nèi)容生態(tài)的繁榮發(fā)展。
【參考文獻(xiàn)】
[1]Liu J, Huang X, Huang T, et al. A comprehensive survey on 3D content generation[J]. arXiv preprint arXiv:2402.01166, 2024.
[2]Wu S, Lin Y, Zhang F, et al. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer[J]. arXiv preprint arXiv:2405.14832, 2024.
[3]Poole B, Jain A, Barron J T, et al. Dreamfusion: Text-to-3d using 2d diffusion[J]. arXiv preprint arXiv:2209.14988, 2022.
[4]Tang J, Ren J, Zhou H, et al. Dreamgaussian: Generative gaussian splatting for efficient 3d content creation[J]. arXiv preprint arXiv:2309.16653, 2023.
[5]Liu M, Xu C, Jin H, et al. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization[J]. Advances in Neural Information Processing Systems, 2024, 36.
[6]Liu M, Shi R, Chen L, et al. One-2-3-45++: Fast single image to 3d objects with consistent multi-view generation and 3d diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 10072-10083.
作者:姬鴻飛、楊本植、殷興華
單位:中國(guó)移動(dòng)研究院