版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

新疆克拉瑪依市科技館AI科普展品

北京航空航天大學(xué)科協(xié)
原創(chuàng)
北京航空航天大學(xué)現(xiàn)隸屬于工業(yè)和信息化部
收藏

克拉瑪依市科技館

AI展品

北京航空航天?學(xué)

智能計算與機器學(xué)習(xí)實驗室2024年04?

1 創(chuàng)作背景

人工智能飛速發(fā)展的當(dāng)下,基于人工智能算法的各類產(chǎn)品已經(jīng)滲透到了生活中的方方面面,給我們的工作、生活都帶來了巨大的便利。而由于客觀存在的地區(qū)差異,人工智能產(chǎn)品在邊疆地區(qū)的普及程度與北京等一線城市相差甚遠,其背后的基本原理更是讓大眾很難短時間了解與接受。因此我們的項目則是希望利用幾個簡單、好用的人工智能算法,將其包裝成為數(shù)個有趣的應(yīng)用,讓大家在體驗到人工智能帶來的樂趣的同時,簡單了解其背后的算法原理。

2 展品項目

2.1 我的數(shù)字信息

該展項依賴的技術(shù)背景是人臉識別,主要目的是讓游客通過體驗面部信息錄入的過程,了解人臉識別技術(shù)。

人臉識別的應(yīng)用場景有很多,最常見的是人證對比,在地鐵口,高鐵入站,或是酒店入住之前,都需要進行人臉識別,以確保持證人的身份與所持證件上一致。隨著人工智能的不斷發(fā)展,人臉識別也越來越多的被用在移動支付,上班打卡等活動中。

該展項的設(shè)計是讓游客在體驗識別過程時觀察到算法的實現(xiàn)原理。當(dāng)點擊我們“人臉識別”的功能的時候,會彈出攝像頭,點擊拍照,此時我們將卷積神經(jīng)網(wǎng)絡(luò)做了可視化,游客可以觀察到拍到的照片從原本的三維圖像矩陣被逐漸壓縮成為一個數(shù)學(xué)表征,通過最后的結(jié)果我們就可以做對比并得出結(jié)果。如果是一張新的人臉,就需要輸入姓名;如果是庫中已有的人臉,就會彈出名字以及年齡等信息。

“我的數(shù)字信息”展品示意圖

對于人臉識別,未來的大勢所趨是改2D的圖片識別為3D建模,可以大大提高識別精度,對于部分遮擋的人臉,旋轉(zhuǎn)后的人臉都能

進行更好的識別和應(yīng)對;除了人臉識別,還有很多傳統(tǒng)的人物對比方式比如虹膜識別,指紋識別,聲紋識別,將所有的這些信息都結(jié)合起來形成新的數(shù)據(jù)庫,也將是未來的趨勢所在。游客通過該展項的體驗,會對未來該方向的發(fā)展產(chǎn)生較高的興趣。

2.2 AI創(chuàng)作

該展項依賴的技術(shù)背景是圖像生成技術(shù),主要目的是讓游客了解目前的圖片生成、視頻生成的發(fā)展情況。

AI生成的原理是利用diffusion(擴散)模型。它依靠的原理就像它的名字:擴散。在物理學(xué)中,擴散是任何事物的整體運動。

(原子,能量)從較高濃度的區(qū)域到較低濃度的區(qū)域?,F(xiàn)在想象一下,將一小滴油漆滴入一杯水中,油漆的密度將集中在一個位置,但隨著時間的推移,該滴將擴散到水中直至達到平衡。在現(xiàn)實世界中,我們無法再將油漆恢復(fù)成最初的狀態(tài)。但在擴散模型中,我們可以依靠數(shù)學(xué)原理試圖構(gòu)建一個模型,該模型輸入一張全是噪聲的雜亂圖案和我們想看到的畫面的文字描述,便可以恢復(fù)成一張漂亮的圖片。其基本思想是通過迭代前向擴散過程系統(tǒng)地、緩慢地破壞數(shù)據(jù)分布中的結(jié)構(gòu)。然后,我們學(xué)習(xí)反向擴散過程,恢復(fù)數(shù)據(jù)結(jié)構(gòu),產(chǎn)生高度靈活且易于處理的數(shù)據(jù)生成模型。

該展項的設(shè)計是讓游客體驗利用擴散模型訓(xùn)練的生成模型,用戶只需要給到一段簡短的文本,即可生成一張圖片,或者一段視頻。同時我們還支持利用用戶拍照的頭像按照用戶的要求進行風(fēng)格轉(zhuǎn)換,

生成卡通、科幻類的數(shù)字頭像,讓游客體驗到圖像生成模型的樂趣。

“AI創(chuàng)作”展品示意圖

即使是沒有繪畫功底的人,也可以通過向AI描述自己想要的畫面在很短的時間內(nèi)來得到一張完成的圖片。作為海報、插圖等等。AI生成視頻也在快速發(fā)展中,相信在未來我們能看見AI創(chuàng)造出更加綺麗豐富的虛擬世界。

2.3 我想對你說

該展項依賴的技術(shù)背景是ASR翻譯,主要目的是讓游客了解語音輸入、識別、翻譯的發(fā)展情況。

ASR在技術(shù)領(lǐng)域通常指的是“自動語音識別”(AutomaticSpeechRecognition),可以將人的語音轉(zhuǎn)換成機器可以理解和處理的文本。在這種技術(shù)在識別語音之后,將其轉(zhuǎn)換成一種語言的文本,再通過翻譯技術(shù)轉(zhuǎn)換成另一種語言的文本。這個過程經(jīng)常用于多語言通訊和國際合作中,比如會議翻譯、多語言客戶支持等場景。在本次展覽中,我們將其設(shè)計成了語音輸入,然后自動翻譯為英文,在界面上精準(zhǔn)顯示兩種語言結(jié)果。

“我想對你說”展品示意圖

該展項為了向兒童科普ASR翻譯,搭建了一個簡單的聲音識別和翻譯模型。用戶點擊“開始錄制”并說出任意內(nèi)容,松手后便可以完成錄制,隨后模型會自動分析并學(xué)習(xí),將原結(jié)果和英文結(jié)果展示。用戶可以選擇自己喜歡的背景,將自己的話和翻譯結(jié)果打印下來,作為紀(jì)念。

對于外語并不熟練、語言不通甚至是不認識文字的人,都可以利用這一項技術(shù)實現(xiàn)跨語言交流。對于ASR翻譯,支持的語言種類十分廣泛:英語、法語、阿拉伯語、西班牙語等都可以實現(xiàn)精準(zhǔn)翻譯;而且其應(yīng)用場景非常廣泛,可以實現(xiàn)更多語言種類的翻譯,實現(xiàn)和外國友人無障礙交流;也可以更精準(zhǔn)用于同聲傳譯和商務(wù)會議輔助翻譯等。

2.4 模擬配音

該展項依賴的技術(shù)背景是聲音克隆技術(shù),主要目的是讓游客了解當(dāng)前聲音克隆技術(shù)的發(fā)展現(xiàn)狀。

聲音克隆的基本技術(shù)原理是基于語音合成和人工智能技術(shù)。它收集并分析目標(biāo)人物的語音樣本,然后使用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等技術(shù)來生成一個能夠模擬目標(biāo)人物聲音的語音合成模型,產(chǎn)生與目標(biāo)人物相似的語音,從而實現(xiàn)聲音克隆。聲音克隆技術(shù)的實際應(yīng)用場景包括:語音助手:允許個人用戶或者企業(yè)定制他們自己的語音助手,使其具有特定聲音特征;虛擬代言人:可以為虛擬人物或品牌創(chuàng)建具有特定聲音的虛擬代言人,用于廣告、營銷等用途;語音

合成技術(shù):改善語音合成系統(tǒng),使其更加自然、逼真,適用于多種場景,如有聲讀物、語音導(dǎo)航等。

該展項為了向游客科普聲音克隆,搭建了一個簡單的聲音克隆模型。用戶點擊“開始錄制”并閱讀指定內(nèi)容,再點擊“停止錄制”便可以完成錄制,隨后模型會自動分析并學(xué)習(xí)聲音特征。隨后,用戶可以在文本框輸入自己想聽到的話,模型則會根據(jù)學(xué)習(xí)到的聲音特征生成對應(yīng)音頻,并播放出來,從而實現(xiàn)聲音克隆。

“模擬配音”展品示意圖

如果聲音克隆技術(shù)能夠進一步提高語音合成的逼真度和個性化程度,并且在各種領(lǐng)域得到廣泛應(yīng)用,那么其市場潛力可能非常巨大,涵蓋消費者市場、企業(yè)市場以及娛樂產(chǎn)業(yè)等多個領(lǐng)域。

2.5 大語言模型

該展項依賴的技術(shù)背景是大語言模型技術(shù),主要目的是讓游客通過與大語言模型對話,感受到近兩年大語言模型的重大突破帶來的巨大發(fā)展前景。

近兩年來隨著以ChatGPT為代表的大語言模型的興起,大語言模型已經(jīng)被廣泛部署到產(chǎn)品的方方面面?;谄鋸姶蟮恼Z義理解能力,無論是作為聊天機器人,還是幫助用戶做好文檔總結(jié)、編寫文檔大綱,抑或是作為游戲的智能NPC提升玩家的游玩沉浸度,大語言模型都發(fā)揮了重要的作用。

該展項提供了兩種使用方法,用戶可以選擇使用線上的ChatGPT,獲得更加強大的對話能力,體會到大語言模型的魅力。用戶也可以選擇使用我們本地部署的大模型,來自阿里巴巴公司的千問模型。本地模型的好處是開源、可調(diào)整,在一定的技術(shù)支持下可以將模型定制化出我們想要的專用功能。

“大語言模型”展品示意圖

大語言模型作為近兩年最熱門的AI技術(shù),對該技術(shù)的深入了解是符合當(dāng)今時代背景的。當(dāng)前無數(shù)創(chuàng)業(yè)公司正在依賴該技術(shù)開發(fā)更加便利的產(chǎn)品,幫助我們在生活、工作中獲得更高的效率,其被稱為通往通用人工智能的一把鑰匙,在可以預(yù)見的未來,該技術(shù)一定會對我們的社會帶來翻天覆地的變化,因此通過向游客們普及該技術(shù)具有深刻的意義。

評論
飛馬騰空
太師級
2024-05-21