国产单位女同事在线播放,亚洲AV无码无线在线观看,亚洲一区二区三区中文字幕5566

隨大語(yǔ)言模型與生成式AI浪潮席卷全球，3D內(nèi)容生成或?qū)⒂瓉?lái)自己的ChatGPT時(shí)刻。3D內(nèi)容生成作為新興3D資產(chǎn)制作手段，為內(nèi)容創(chuàng)作模式帶來(lái)了新的變革，極大促進(jìn)了3D數(shù)字化內(nèi)容生產(chǎn)的效率提升，引起業(yè)界的廣泛關(guān)注。本文探討了3D內(nèi)容生成技術(shù)的主流方法及其應(yīng)用領(lǐng)域，尤其在文生3D和圖生3D方面，業(yè)界已取得不少有代表性的進(jìn)展。預(yù)計(jì)3D內(nèi)容生成將在游戲、電影、通信等領(lǐng)域有廣泛的應(yīng)用，推動(dòng)數(shù)字內(nèi)容生態(tài)的繁榮發(fā)展。

1、3D內(nèi)容生成簡(jiǎn)介

從最初的基于幾何建模的手工創(chuàng)作，到如今的海量數(shù)據(jù)驅(qū)動(dòng)的AIGC 3D生成，3D內(nèi)容創(chuàng)作的發(fā)展經(jīng)歷了以下多個(gè)階段。

①手工3D建模階段：從1960年代起，計(jì)算機(jī)3D圖形學(xué)的基礎(chǔ)理論逐漸確立，研究人員提出了如多邊形網(wǎng)格、樣條曲線和NURBS曲面等各種建模技術(shù)，并開(kāi)始利用光柵化和光線追蹤算法生成更加逼真的圖像。初期3D內(nèi)容的生成依賴于專業(yè)人員使用建模軟件進(jìn)行手動(dòng)創(chuàng)建，早期的3D建模方法和工具較為原始，3D模型的創(chuàng)建主要依靠藝術(shù)家和設(shè)計(jì)師使用專業(yè)軟件手工建模，工作流程包括幾何建模、紋理貼圖、光照設(shè)置等，整個(gè)過(guò)程耗時(shí)且成本較高。這一時(shí)期的3D內(nèi)容生成工作量大、耗時(shí)長(zhǎng)，對(duì)建模人員的技術(shù)要求較高。

②基于掃描與重建階段：隨著計(jì)算機(jī)硬件和傳感器技術(shù)的發(fā)展，3D掃描與自動(dòng)化重建技術(shù)逐漸興起，激光掃描和結(jié)構(gòu)光掃描技術(shù)能夠獲取物體和場(chǎng)景的高精度點(diǎn)云數(shù)據(jù)，并重建其3D模型。這一階段，3D掃描與重建被廣泛用于文物保護(hù)、醫(yī)療成像、逆向工程等領(lǐng)域，三維模型的生成效率和精度都得到了提升，不過(guò)生成的模型通常還需要后期處理，以優(yōu)化模型效果和細(xì)節(jié)。

③基于AI的智能3D生成階段：在深度學(xué)習(xí)等技術(shù)驅(qū)動(dòng)下，3D內(nèi)容生成進(jìn)入了新的智能化階段。生成對(duì)抗網(wǎng)絡(luò)（GAN）、變分自編碼器（VAE）等模型能夠從大量數(shù)據(jù)中學(xué)習(xí)并生成新的3D內(nèi)容，被用于3D模型生成、紋理映射和風(fēng)格遷移等任務(wù)。神經(jīng)輻射場(chǎng)（NeRF）技術(shù)的提出，以及大型語(yǔ)言模型（LLM）和擴(kuò)散模型（DM）的發(fā)展，進(jìn)一步推動(dòng)了3D內(nèi)容生成的能力，現(xiàn)階段3D內(nèi)容生成模型具備了從文本、圖像中生成對(duì)應(yīng)3D模型的能力：

1）文生3D（Text-to-3D）是指通過(guò)輸入文字描述來(lái)生成對(duì)應(yīng)的3D模型。使用自然語(yǔ)言作為與用戶交互的方式已經(jīng)愈發(fā)成熟，這種生成方式具有高度的靈活性和創(chuàng)造性，用戶可以通過(guò)簡(jiǎn)單的文字描述表達(dá)自己的創(chuàng)意和需求，然后由生成式模型生成相應(yīng)的3D模型。文生3D中，生成質(zhì)量、多樣性和效率是目前業(yè)界關(guān)注的關(guān)鍵問(wèn)題。

2）圖生3D（Image-to-3D）是指通過(guò)輸入二維圖像來(lái)生成三維模型。這種方法通常利用了深度學(xué)習(xí)等技術(shù)，通過(guò)對(duì)大量二維圖像數(shù)據(jù)的學(xué)習(xí)，能夠從一張二維圖像中推斷出物體的三維形狀和結(jié)構(gòu)。例如一些應(yīng)用允許將用戶上傳的照片轉(zhuǎn)換為3D模型，為用戶提供更加生動(dòng)的視覺(jué)體驗(yàn)。此外還可以通過(guò)布局或線稿引導(dǎo)來(lái)生成相應(yīng)的3D模型。例如，在建筑設(shè)計(jì)中，設(shè)計(jì)師可以通過(guò)提供建筑的平面圖和剖面圖，由3D生成式系統(tǒng)生成建筑的3D模型。3D模型細(xì)節(jié)還原性、形狀和結(jié)構(gòu)推斷準(zhǔn)確性等是目前業(yè)界普遍關(guān)注的關(guān)鍵問(wèn)題。

2、3D內(nèi)容生成分類

按生成內(nèi)容類別的不同，3D內(nèi)容生成可以進(jìn)一步細(xì)化為物體生成、場(chǎng)景生成、人體生成、人臉生成。

①物體生成：物體生成主要聚焦從文本或圖像中生成特定類別的3D物體模型，通常也是三維環(huán)境及場(chǎng)景生成的基礎(chǔ)。Text2Shape（2018）是首個(gè)嘗試?yán)米匀徽Z(yǔ)言描述生成3D形狀的工作，基于Conditional Wasserstein GAN。Nvdia的GET3D（2022）提出了一種可以生成高質(zhì)量紋理3D形狀的生成模型，能夠生成顯式紋理3D網(wǎng)格。

②場(chǎng)景生成：場(chǎng)景生成的難度比單個(gè)物體更大，因?yàn)樗枰紤]物體之間的空間關(guān)系，可以創(chuàng)建豐富多樣的場(chǎng)景，為游戲、建筑設(shè)計(jì)、工業(yè)設(shè)計(jì)等行業(yè)提供強(qiáng)大的支持。DreamScene（2024）基于顯式表征3D高斯?jié)姙R（3DGS），通過(guò)文本生成高質(zhì)量、視角一致且可編輯的3D場(chǎng)景。斯坦福與MIT近期推出WonderWorld（2024），實(shí)現(xiàn)了從單一圖像出發(fā)在用戶實(shí)時(shí)交互下生成無(wú)限延展的3D場(chǎng)景，將交互式3D世界生成推向?qū)崟r(shí)門檻。

③人體生成：人體生成技術(shù)關(guān)注于生成逼真的數(shù)字人模型，精確創(chuàng)建逼真的人體模型在游戲、影視制作等領(lǐng)域具有廣泛應(yīng)用。較早的SMPL（2015）提出了一種可變形的人體模型，這種用于3D人體建模和姿態(tài)估計(jì)的參數(shù)化模型能夠精確地表示不同的人體形狀和姿態(tài)，幾乎成為實(shí)質(zhì)性的3D數(shù)字人驅(qū)動(dòng)標(biāo)準(zhǔn)。近期工作MagicMan（2024）是一種從單一參考圖像生成高質(zhì)量多視角人像的方法，它提出了一種高效的混合多視角注意力機(jī)制，以生成更密集的多視角人像，同時(shí)保持更好的3D一致性。

④人臉生成：人臉生成技術(shù)能夠從文本或圖像中生成各種不同風(fēng)格的人臉模型，可應(yīng)用于虛擬現(xiàn)實(shí)、社交娛樂(lè)等領(lǐng)域，用戶可以通過(guò)3D生成模型創(chuàng)造自己獨(dú)特的虛擬人臉，具有高度的個(gè)性化和可定制性。例如，ChatAvatar（2023）支持生成3D人臉，其運(yùn)用了對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型，用戶可提供詳細(xì)描述或者上傳一張圖片，ChatAvatar會(huì)生成一系列3D頭像候選項(xiàng)，支持導(dǎo)入到主流的3D軟件中進(jìn)行進(jìn)一步編輯優(yōu)化。

3、3D內(nèi)容生成方法

近年來(lái)3D內(nèi)容生成技術(shù)不斷推陳出新，不同方法側(cè)重點(diǎn)不同，各有優(yōu)勢(shì)，將3D內(nèi)容生成方法歸納為以下三類：

①3D原生生成方法：3D原生生成方法是利用深度學(xué)習(xí)模型學(xué)習(xí)3D數(shù)據(jù)集，并直接生成物體或場(chǎng)景的三維模型。早期以3D原生生成方法為主，這種方法的優(yōu)勢(shì)在于可以生成較高質(zhì)量的3D內(nèi)容，且畸形、殘缺控制較好，具備3D內(nèi)容直接商用的潛力。但該方法通常需要大量的3D訓(xùn)練數(shù)據(jù)集。典型的3D原生生成方法中，DreamTech提出了3D-DiT（2024），該方法使用3D變分自編碼器將3D形狀編碼到潛在空間，然后通過(guò)擴(kuò)散變換模型從這個(gè)潛在空間生成3D形狀，此外還提供了將參考圖像高分辨率信息和語(yǔ)義信息整合到3D生成過(guò)程的方法，使模型可以生成與給定參考圖一致的 3D 形狀。今年8月DreamTech又推出了Direct3D-5B版本，進(jìn)一步提升生成結(jié)果質(zhì)量精度。此外，OpenAI近年來(lái)先后發(fā)布Point-E（2022）、Shap-E（2023），前者支持使用文本生成3D點(diǎn)云，即在空間中代表3D形狀的離散數(shù)據(jù)點(diǎn)集，后者則利用神經(jīng)輻射場(chǎng)（NeRF）等隱式神經(jīng)表征，支持文本生成多樣的3D物體資產(chǎn)，且收斂更快、支持紋理網(wǎng)格渲染。

②基于2D先驗(yàn)的3D生成方法：3D原生生成方法的弊端在于訓(xùn)練時(shí)依賴大量3D數(shù)據(jù)集，例如ShapeNet。不過(guò)由于2D圖像的豐富程度遠(yuǎn)遠(yuǎn)大于3D資產(chǎn)，從2D圖像中學(xué)習(xí)并升維為3D數(shù)據(jù)，又稱基于2D先驗(yàn)的3D生成方法，近些年來(lái)快速進(jìn)步。這種方式最大的優(yōu)勢(shì)在于無(wú)需進(jìn)行專門的3D數(shù)據(jù)訓(xùn)練，3D數(shù)據(jù)的獲取和標(biāo)注通常比2D數(shù)據(jù)更為昂貴和耗時(shí)。典型工作如Google的DreamFusion（2022），其利用改進(jìn)的得分蒸餾采樣（SDS）方法，將強(qiáng)大的2D擴(kuò)散模型的知識(shí)擴(kuò)展至3D領(lǐng)域，并采用NeRF進(jìn)行3D表征，從而提高文生3D的生成質(zhì)量，無(wú)需專門的3D訓(xùn)練數(shù)據(jù)、無(wú)需修改2D擴(kuò)散模型。隨3DGS這一顯式三維表征方法的提出，DreamGaussian（2023）將3DGS整合到生成式3D內(nèi)容創(chuàng)建流程，顯著提高基于2D先驗(yàn)生成方法的效率，與DreamFusion中基于mip-NeRF 360--一種改進(jìn)NeRF方法相比，實(shí)現(xiàn)了約10倍的加速，DreamGaussian能夠5分鐘左右完成文生3D任務(wù)，相比之下DreamFusion需要大約1小時(shí)。

③基于多視圖預(yù)測(cè)的3D生成方法：基于多視圖預(yù)測(cè)的3D生成方法試圖結(jié)合3D原生生成方法和基于2D先驗(yàn)的3D生成方法的優(yōu)點(diǎn)，先利用擴(kuò)散模型根據(jù)文本或圖像生成目標(biāo)對(duì)象的多角度視圖，進(jìn)一步基于多視圖進(jìn)行3D重建和生成，并采取優(yōu)化策略保證多視圖在幾何上的一致性，確保3D內(nèi)容生成質(zhì)量。典型的工作如Zero-1-to-3（2023），該方法利用大規(guī)模擴(kuò)散模型對(duì)自然圖像學(xué)習(xí)的幾何先驗(yàn)知識(shí)，可以在指定的角度下生成同一物體的新視圖，但該方法生成的視圖缺乏3D一致性。UCSD的One-2-3-45（2023）在Zero-1-to-3的基礎(chǔ)上進(jìn)行了改進(jìn)，在基于SDF的廣義神經(jīng)表面重建方法及優(yōu)化訓(xùn)練策略的幫助下，確保生成合理一致的3D內(nèi)容，并采用前饋傳遞的方式一次性通過(guò)神經(jīng)網(wǎng)絡(luò)生成3D網(wǎng)格，實(shí)現(xiàn)45秒內(nèi)從單一圖像到高質(zhì)量3D網(wǎng)格的生成。One-2-3-45++（2023）中則進(jìn)一步優(yōu)化了2D多視圖生成過(guò)程，通過(guò)微調(diào)2D擴(kuò)散模型來(lái)生成包含六個(gè)角度的多視圖的組合圖像，從而增強(qiáng)生成3D內(nèi)容的魯棒性和質(zhì)量。

4、3D內(nèi)容生成的應(yīng)用

3D生成的使用場(chǎng)景廣泛，在游戲、電影、通信等領(lǐng)域發(fā)揮著重要作用。

①在游戲領(lǐng)域，3D內(nèi)容生成技術(shù)在游戲行業(yè)的應(yīng)用非常廣泛，它能夠自動(dòng)化地生成游戲環(huán)境、角色和物品，為游戲開(kāi)發(fā)者提供更加高效、便捷的游戲內(nèi)容創(chuàng)作方式，從而大大提高游戲開(kāi)發(fā)的效率，并降低人力成本。除此之外，在游戲的游玩階段也可以引入3D生成技術(shù)，為玩家?guī)?lái)個(gè)性化模型創(chuàng)造體驗(yàn)。例如騰訊XR實(shí)驗(yàn)室近期發(fā)布的交互式3D游戲場(chǎng)景創(chuàng)作方法，利用預(yù)訓(xùn)練的2D去噪擴(kuò)散模型生成場(chǎng)景的2D圖像作為概念指導(dǎo)，從用戶的手繪草圖等隨意提示中自動(dòng)生成可交互和可玩的3D游戲場(chǎng)景，生成的3D場(chǎng)景也可以無(wú)縫地集成到游戲開(kāi)發(fā)環(huán)境中。

②在電影領(lǐng)域，三維數(shù)字內(nèi)容創(chuàng)作是電影視效中的重要一環(huán)，三維技術(shù)可以拓展電影呈現(xiàn)的場(chǎng)景空間，在數(shù)字電影制作流程中，尤其在需要三維技術(shù)輔助的電影中，需要利用多種CG模型、角色來(lái)實(shí)現(xiàn)最終的成片效果，其中三維數(shù)字內(nèi)容包含了模型資產(chǎn)、材質(zhì)資產(chǎn)、動(dòng)畫(huà)資產(chǎn)等。傳統(tǒng)的三維內(nèi)容創(chuàng)作流程包括設(shè)計(jì)、建模、展UV、貼圖繪制等多個(gè)步驟，通常費(fèi)時(shí)費(fèi)力。根據(jù)文本等描述快速生成三維模型，能夠減少繁瑣的重復(fù)性工作，使創(chuàng)作者能夠?qū)⒏嗑ν度氲诫娪皠?chuàng)意和細(xì)節(jié)的打磨上，同時(shí)還減少了因設(shè)計(jì)迭代而產(chǎn)生的額外成本，有望成為電影制作中不可或缺的一部分。

③在通信領(lǐng)域，借助3D內(nèi)容生成，用戶可以在逼真的三維虛擬空間中進(jìn)行互動(dòng)，以體驗(yàn)沉浸式通信效果。沉浸式通信場(chǎng)景下需要結(jié)合3D人體、3D人臉以及3D場(chǎng)景等生成技術(shù)。實(shí)時(shí)3D人體和3D人臉重建，可以創(chuàng)建通信雙方的虛擬代理人，輔助進(jìn)行數(shù)字形態(tài)之間的互動(dòng)和交流，基于攝像頭等設(shè)備捕捉用戶的姿態(tài)和面部表情，從而在點(diǎn)對(duì)點(diǎn)通信和多人遠(yuǎn)程會(huì)議等場(chǎng)景，提供更好的沉浸感和情感傳遞效果。3D場(chǎng)景和物體生成技術(shù)則為通信雙方提供更加豐富生動(dòng)的環(huán)境沉浸感，例如可以實(shí)時(shí)重建各類型3D數(shù)字場(chǎng)景，以契合當(dāng)前主題，使通信參與方能夠更加直觀地完成溝通。

5、總結(jié)與展望

盡管AIGC 3D取得了顯著的進(jìn)展，但仍面臨諸多技術(shù)挑戰(zhàn)。3D生成模型的主要瓶頸是缺乏大量高質(zhì)量的3D數(shù)據(jù)集，目前常用的3D數(shù)據(jù)集如ShapeNet（約22萬(wàn)個(gè)已分類的3D模型）或Objaverse（基礎(chǔ)版本約80萬(wàn)個(gè)3D模型、XL版本約100萬(wàn)個(gè)3D模型）包含的模型數(shù)量和細(xì)節(jié)質(zhì)量都有待提升，尤其是比起2D領(lǐng)域的大數(shù)據(jù)集，例如LAION-5B（約50億張圖像），3D數(shù)據(jù)量仍遠(yuǎn)不夠來(lái)訓(xùn)練優(yōu)質(zhì)的3D大模型。確保生成的3D內(nèi)容的質(zhì)量也是當(dāng)下面臨的挑戰(zhàn)之一，生成的3D內(nèi)容可能存在瑕疵、不完整或不符合預(yù)期的情況。例如3D人體模型中可能會(huì)出現(xiàn)比例不協(xié)調(diào)問(wèn)題，或者出現(xiàn)常見(jiàn)的Janus問(wèn)題，即在3D頭像生成中由于視角不一致而導(dǎo)致的不確定性，產(chǎn)生一個(gè)物體的正面視圖特征（如面部或頭部）錯(cuò)誤地出現(xiàn)在其他視圖中。

未來(lái)，3D內(nèi)容生成將更加注重結(jié)合文本、圖像、視頻等多模態(tài)信息，以提高3D內(nèi)容生成的準(zhǔn)確性和豐富性。此外，現(xiàn)有模型往往在特定數(shù)據(jù)集表現(xiàn)良好，在面對(duì)不同領(lǐng)域和風(fēng)格的任務(wù)時(shí)，需要進(jìn)一步提升其泛化能力。最后，隨計(jì)算資源的提升和算法的突破，預(yù)計(jì)將實(shí)現(xiàn)更快的3D生成速度，在低延遲甚至實(shí)時(shí)條件下生成復(fù)雜的動(dòng)態(tài)場(chǎng)景和細(xì)節(jié)豐富的三維內(nèi)容，以符合多變的3D場(chǎng)景下的業(yè)務(wù)需求。

3D內(nèi)容是數(shù)字世界不可或缺的生產(chǎn)要素，3D內(nèi)容生成技術(shù)作為一種創(chuàng)新技術(shù)手段，具有廣闊的發(fā)展前景和巨大的應(yīng)用潛力。由于真實(shí)的世界處于三維空間，3D內(nèi)容生成技術(shù)的發(fā)展也有望推動(dòng)真實(shí)世界模擬器的建立，其作為訓(xùn)練通用人工智能的重要工具，有望助力未來(lái)通用人工智能的實(shí)現(xiàn)。預(yù)計(jì)3D內(nèi)容生成將為各個(gè)行業(yè)帶來(lái)更加豐富、高效、個(gè)性化的3D內(nèi)容創(chuàng)作體驗(yàn)，推動(dòng)數(shù)字內(nèi)容生態(tài)的繁榮發(fā)展。

【參考文獻(xiàn)】
[1]Liu J, Huang X, Huang T, et al. A comprehensive survey on 3D content generation[J]. arXiv preprint arXiv:2402.01166, 2024.

[2]Wu S, Lin Y, Zhang F, et al. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer[J]. arXiv preprint arXiv:2405.14832, 2024.

[3]Poole B, Jain A, Barron J T, et al. Dreamfusion: Text-to-3d using 2d diffusion[J]. arXiv preprint arXiv:2209.14988, 2022.

[4]Tang J, Ren J, Zhou H, et al. Dreamgaussian: Generative gaussian splatting for efficient 3d content creation[J]. arXiv preprint arXiv:2309.16653, 2023.

[5]Liu M, Xu C, Jin H, et al. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization[J]. Advances in Neural Information Processing Systems, 2024, 36.

[6]Liu M, Shi R, Chen L, et al. One-2-3-45++: Fast single image to 3d objects with consistent multi-view generation and 3d diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 10072-10083.

作者：姬鴻飛、楊本植、殷興華

單位：中國(guó)移動(dòng)研究院

隨AI席卷全球的3D內(nèi)容生成，能否成為數(shù)字世界的 “ChatGPT 時(shí)刻”？

隨AI席卷全球的3D內(nèi)容生成，能否成為數(shù)字世界的 “ChatGPT 時(shí)刻”？