版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

科學(xué)島團(tuán)隊(duì)提出一種跨模態(tài)機(jī)器視覺人工智能模型實(shí)現(xiàn)跨模態(tài)圖像檢索技術(shù)

安徽省科學(xué)技術(shù)協(xié)會(huì)

近日,中國科學(xué)院合肥物質(zhì)院智能所先進(jìn)制造中心王紅強(qiáng)研究員團(tuán)隊(duì)提出一種寬域跨模態(tài)機(jī)器視覺AI模型,突破了傳統(tǒng)單域模型跨模態(tài)信息處理瓶頸,實(shí)現(xiàn)了跨模態(tài)圖像檢索技術(shù)新突破。該研究成果被計(jì)算機(jī)視覺頂會(huì)(歐洲計(jì)算機(jī)視覺大會(huì),ECCV2024)正式接收。

跨模態(tài)機(jī)器視覺研究是當(dāng)前人工智能研究的前沿領(lǐng)域與主要挑戰(zhàn)之一,難點(diǎn)在于如何識(shí)別模態(tài)間的一致性和互補(bǔ)性。傳統(tǒng)方法通常在圖水平和特征水平上進(jìn)行,往往受限于信息粒度過大和圖像資源稀缺等問題??蒲袌F(tuán)隊(duì)發(fā)現(xiàn),相比圖和特征,細(xì)節(jié)關(guān)聯(lián)在多數(shù)情況下更好地保持了跨模態(tài)間的不變性。

為此,科研團(tuán)隊(duì)提出了一種寬域信息挖掘神經(jīng)網(wǎng)絡(luò)(WRIM-Net),通過構(gòu)建全域交互學(xué)習(xí)機(jī)制實(shí)現(xiàn)了在空間域、通道域以及尺度域等多域中的細(xì)節(jié)關(guān)聯(lián)挖掘,突破了傳統(tǒng)單域模型的局限性。此外,通過設(shè)計(jì)跨模態(tài)關(guān)鍵實(shí)例對比學(xué)習(xí)模塊有效引導(dǎo)了網(wǎng)絡(luò)提取模態(tài)關(guān)聯(lián)信息。在驗(yàn)證實(shí)驗(yàn)中,不僅在標(biāo)準(zhǔn)SYSU-MM01和RegDB數(shù)據(jù)集上,還在最新的大規(guī)??缒B(tài)LLCM數(shù)據(jù)集上證實(shí)了所提出模型的有效性,多項(xiàng)關(guān)鍵性能指標(biāo)首次突破90%,比如在SYSU-MM01上R1指標(biāo)達(dá)92.1%,在RegDB上mAP指標(biāo)達(dá)90.5%,接近實(shí)際應(yīng)用水平。該模型可用于視覺追溯與檢索、多模態(tài)大模型、醫(yī)學(xué)影像分析、安防監(jiān)控等多個(gè)人工智能應(yīng)用領(lǐng)域。

博士生吳勇敢為文章的第一作者,王紅強(qiáng)為通信作者。該研究工作得到了國家自然科學(xué)基金項(xiàng)目、中國科學(xué)院設(shè)備開發(fā)、安徽省重點(diǎn)研究與開發(fā)計(jì)劃等科研項(xiàng)目的支持。

據(jù)悉,歐洲計(jì)算機(jī)視覺大會(huì)(ECCV)是計(jì)算機(jī)視覺領(lǐng)域的頂尖國際學(xué)術(shù)盛會(huì)之一,與ICCV和CVPR并列“三大頂會(huì)”。自1986年起,ECCV每兩年舉行一次,聚焦計(jì)算機(jī)視覺的全方位研究,包括圖像與視頻的處理、分析和理解,及其在機(jī)器學(xué)習(xí)、模式識(shí)別、機(jī)器人、醫(yī)學(xué)影像、AR/VR等領(lǐng)域的應(yīng)用。

跨模態(tài)信息關(guān)聯(lián)性與寬域信息挖掘模型原理

評論
科普6502a8c28decc
進(jìn)士級
近日,中國科學(xué)院合肥物質(zhì)院智能所選進(jìn)制造中心王紅強(qiáng)研究員團(tuán)隊(duì)提出一種寬域跨模態(tài)機(jī)器視覺Al模型,突破了傳統(tǒng)單域模型跨模態(tài)信息處理瓶頸,實(shí)現(xiàn)了跨模態(tài)圖像檢索技術(shù)新突破。該研究成果被計(jì)算機(jī)視覺頂會(huì)(歐洲計(jì)算機(jī)視覺大會(huì)ECCV2024)正式接收。
2024-09-16
Wings12
學(xué)士級
閱讀
2024-09-16
科普648af29955a17
庶吉士級
閱讀學(xué)習(xí)
2024-09-16