將地球“裝進(jìn)”神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)虛擬環(huán)球旅行需要幾步?
近日,北京航空航天大學(xué)史振威教授和鄒征夏教授團(tuán)隊(duì)研發(fā)一種“數(shù)字地球(MetaEarth)”遙感生成式模型。可生成全球任意地理位置多分辨率、無(wú)界的遙感圖像。
MetaEarth生成式遙感基礎(chǔ)模型團(tuán)隊(duì)用“整顆”地球的衛(wèi)星遙感影像,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),克服了多種要素特征泛化、表征一致性等難題,最終在六億參數(shù)規(guī)模的網(wǎng)絡(luò)中創(chuàng)造覆蓋全球的“平行世界”。
近年來(lái),Stable Diffusion、Sora等多種AI視覺(jué)生成模型引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。結(jié)合特定領(lǐng)域知識(shí),生成逼真且多樣的專(zhuān)業(yè)圖像和視頻數(shù)據(jù),已成為各垂直領(lǐng)域的發(fā)展趨勢(shì)。特別是在航空航天遙感領(lǐng)域,發(fā)展具有遙感特色的視覺(jué)生成模型,對(duì)于城市規(guī)劃等應(yīng)用具有重要的價(jià)值。
MetaEarth在生成全球范圍內(nèi)、多分辨率、無(wú)界和虛擬無(wú)限的遙感圖像方面具有強(qiáng)大的能力
現(xiàn)有生成模型的規(guī)模仍局限于日常人類(lèi)活動(dòng)場(chǎng)景,生成圖像的分辨率和信息容量有限。在本項(xiàng)目中,研究者們從遙感俯拍視角出發(fā),提出并構(gòu)建了“數(shù)字地球(MetaEarth)”遙感生成式基礎(chǔ)模型,實(shí)現(xiàn)了世界范圍內(nèi)的遙感圖像生成。同時(shí)考慮了城市、森林、沙漠、海洋、冰川和雪地等廣泛的地貌特征。
MetaEarth作為一種神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的數(shù)據(jù)引擎,有望為衛(wèi)星等空天無(wú)人系統(tǒng)平臺(tái)提供一個(gè)逼真的虛擬環(huán)境,并在城市規(guī)劃、環(huán)境監(jiān)測(cè)、災(zāi)害管理、農(nóng)業(yè)優(yōu)化等領(lǐng)域廣泛應(yīng)用;除此之外,MetaEarth在構(gòu)建生成式世界模型方面也具有巨大潛力,為未來(lái)的研究提供新的可能。
在研究中都遇到了哪些挑戰(zhàn)?研究團(tuán)隊(duì)又是如何解決的呢?
和我一起了解——
如何覆蓋整個(gè)地球的信息量
“天高地迥,覺(jué)宇宙之無(wú)窮”,從雪山巔峰到遼闊海面,從廣袤原野到茂密叢林,生成全球尺度的圖像需要包括廣泛的地理特征。僅對(duì)于同一地區(qū),在不同的緯度、氣候和文化環(huán)境下,也會(huì)表現(xiàn)出巨大差異,這對(duì)生成模型的容量提出了很高的要求。
在過(guò)去的研究中,盡管出現(xiàn)了圖像生成技術(shù)在遙感領(lǐng)域的嘗試,但此類(lèi)方法通常僅在小規(guī)模的數(shù)據(jù)集上進(jìn)行訓(xùn)練,缺少地貌的多樣性。為解決上述問(wèn)題,團(tuán)隊(duì)構(gòu)建了一種超過(guò)6億參數(shù)的概率擴(kuò)散模型,并收集了大規(guī)模遙感數(shù)據(jù)集用于模型的訓(xùn)練,包括來(lái)自覆蓋全球大多數(shù)區(qū)域的多個(gè)空間分辨率的圖像及其地理信息(緯度、經(jīng)度和分辨率)。
全球各種土地特征圖像,包括水體、山脈、沙漠、農(nóng)田、城市和鄉(xiāng)村地區(qū)
如何生成可控分辨率的圖像
在俯拍圖像成像過(guò)程中,地物特征的展現(xiàn)受分辨率影響很大,在不同圖像分辨率下具有明顯的差異,難以具備在指定分辨率(米/像素)下精準(zhǔn)生成的能力。
MetaEarth框架圖
為此,作者提出一種分辨率引導(dǎo)的自級(jí)聯(lián)生成框架。不同于過(guò)去的單級(jí)生成方法,所提出的框架以多層級(jí)的方式,依次生成給定地理位置的低分辨率到高分辨率的圖像。具體而言,研究者們?cè)诓煌?jí)聯(lián)階段之間構(gòu)建了一個(gè)統(tǒng)一模型,共享相同的網(wǎng)絡(luò)權(quán)重,由前一階段生成的低分辨率圖像及其空間分辨率指導(dǎo)生成更高分辨率的圖像。隨著級(jí)聯(lián)層數(shù)的積累,生成的遙感圖像在分辨率和內(nèi)容上都表現(xiàn)出多樣性。
由MetaEarth生成的大尺寸高分辨率圖像示例
如何生成無(wú)界圖像
在遙感領(lǐng)域,現(xiàn)有的圖像生成方法通常只能生成有限尺寸的圖像(如 512x512 像素),對(duì)于如何生成尺寸更大、場(chǎng)景更廣的圖像的研究還較少。與日常自然圖像不同,遙感圖像具有超大幅寬的特性,邊長(zhǎng)可能達(dá)到數(shù)萬(wàn)像素。如果簡(jiǎn)單地“拼接”每個(gè)獨(dú)立生成的圖像會(huì)導(dǎo)致視覺(jué)上的不連續(xù),因此生成連續(xù)、任意大小的無(wú)界圖像仍然是一個(gè)待解決的重要問(wèn)題。
怎樣實(shí)現(xiàn)“絲滑”連接呢?北航團(tuán)隊(duì)提出一種內(nèi)存高效的滑動(dòng)窗口生成方法和噪聲采樣策略。該策略將生成的圖像切分成重疊的圖像塊作為條件,通過(guò)特定的噪聲采樣策略,使相鄰圖像塊的共享區(qū)域生成相似的內(nèi)容,從而避免拼接縫隙。此外,這種噪聲采樣策略,也使得模型能在實(shí)現(xiàn)任意尺寸的無(wú)界圖像生成時(shí),消耗更少的顯存資源。
生成無(wú)界圖像流程圖
論文鏈接:https://arxiv.org/abs/2405.13570
團(tuán)隊(duì)簡(jiǎn)介
史振威
教授 博士生導(dǎo)師
鄒征夏
教授 博士生導(dǎo)師
北航史振威教授和鄒征夏教授團(tuán)隊(duì)面向民生保障等國(guó)家重大需求,長(zhǎng)期從事遙感圖像處理相關(guān)研究。團(tuán)隊(duì)在《電氣與電子工程師協(xié)會(huì)會(huì)報(bào)(Proceedings of the IEEE)》《IEEE模式分析與機(jī)器智能匯刊(TPAMI)》《IEEE地球科學(xué)與遙感匯刊(IEEE Transactions on Geoscience and Remote Sensing)》等IEEE重要學(xué)術(shù)期刊上發(fā)表科研論文120余篇(ESI高被引論文17篇),論文被引用1萬(wàn)余次。在進(jìn)行學(xué)術(shù)研究的同時(shí),團(tuán)隊(duì)注重將理論研究與實(shí)際應(yīng)用相結(jié)合,承擔(dān)了高分五號(hào)衛(wèi)星地面處理、資源/高分系列衛(wèi)星地物分類(lèi)/變化監(jiān)測(cè)和目標(biāo)檢測(cè)識(shí)別、巴基斯坦首顆遙感衛(wèi)星云雪識(shí)別等系統(tǒng)的研制,研究成果已應(yīng)用于20余型衛(wèi)星,在民生領(lǐng)域得到廣泛應(yīng)用。