版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-基于特征映射方法

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

在遷移學(xué)習(xí)中,基于特征映射方法是把各個(gè)領(lǐng)域的數(shù)據(jù)從原始高維特征空間映射到低維特征空間,在該低維空間下,源領(lǐng)域數(shù)據(jù)與目標(biāo)領(lǐng)域數(shù)據(jù)擁有相同的分布。這樣就可以利用低維空間表示的有標(biāo)簽的源領(lǐng)域樣本數(shù)據(jù)訓(xùn)練分類(lèi)器, 對(duì)目標(biāo)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。 該方法與特征選擇的區(qū)別在于這些映射得到的特征不在原始的特征當(dāng)中,是全新的特征。

簡(jiǎn)介特征映射,也稱降維,是將高維多媒體數(shù)據(jù)的特征向量映射到一維或者 低維空間的過(guò)程。在高維特征數(shù)據(jù)庫(kù)中,高維數(shù)據(jù) 存在數(shù)據(jù)冗余。由于索引結(jié)構(gòu)的性能隨著維數(shù)的增 大而迅速降低,在維數(shù)大10以后,性能還不如順 序掃描,形成維數(shù)災(zāi)難。降維后,應(yīng)用成熟的低維索引技術(shù),以提高性能?;谔卣饔成浞椒ê?jiǎn)單來(lái)說(shuō)是指將數(shù)據(jù)從高維空間映射到低維空間,然后用分類(lèi)器進(jìn)行分類(lèi),為了得到較好的分類(lèi)性能。在遷移學(xué)習(xí)領(lǐng)域,已經(jīng)有不少學(xué)者提出了不同的方法,例如潘嘉林等人提出了一種新的維度降低遷移學(xué)習(xí)方法, 他通過(guò)最小化源領(lǐng)域數(shù)據(jù)與目標(biāo)領(lǐng)域數(shù)據(jù)在隱性語(yǔ)義空間上的最大均值偏差(Maximun Mean Discrepancy),求解得到降維后的特征空間。在該隱性空間上,不同的領(lǐng)域具有相同或者非常接近的數(shù)據(jù)分布,因此就可以直接利用監(jiān)督學(xué)習(xí)算法訓(xùn)練模型對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)測(cè)。顧全泉(Quanquan Gu)等人探討了多個(gè)聚類(lèi)任務(wù)的學(xué)習(xí)(這些聚類(lèi)任務(wù)是相關(guān)的), 提出了一種尋找共享特征子空間的框架。在該子空間中,各個(gè)領(lǐng)域的數(shù)據(jù)共享聚類(lèi)中心,而且他們還把該框架推廣到直推式遷移分類(lèi)學(xué)習(xí)。 布利澤 (Blitzer)等人 提出了一種結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)算法(Structural Corresponding Learning,SCL)。該算法把領(lǐng)域特有的特征映射到所有領(lǐng)域共享的“軸”特征,然后就在這個(gè) “軸” 特征下進(jìn)行訓(xùn)練學(xué)習(xí)。 結(jié)構(gòu)對(duì)應(yīng)學(xué)習(xí)算法已經(jīng)被用到詞性標(biāo)注以及情感分析中1。

特征映射方法基于低維投影的降維方法

主成分分析(principal component analysis,PCA): 是使用最為廣泛的線性降維方法之一,它先 將數(shù)據(jù)投影到某一個(gè)主成分上,然后丟掉具有較小方差的那些維的信息,尋找具有最大方差的線性特征集,達(dá)到降維的目的。該方法的概念簡(jiǎn)單、計(jì)算方便,但是,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)來(lái)確定主成分及其數(shù) 量。

投影法(projection pursuit,PP):其基本思想 是將高維數(shù)據(jù)投影到低維(一般是1~3維)子空間上,通過(guò)分析和研究投影數(shù)據(jù)以達(dá)到了解原始數(shù)據(jù)的目的。該方法最早產(chǎn)生于20世紀(jì)70年代初,Kruskal將數(shù)據(jù)投影到低維空間,通過(guò)極大化某個(gè)指標(biāo),以發(fā)現(xiàn)數(shù)據(jù)的聚類(lèi)結(jié)構(gòu)。聚類(lèi)效果取決于索引函數(shù)的選擇和優(yōu)化算法。該方法可有效排除噪聲數(shù)據(jù)的干擾,但是,計(jì)算量大,不適用于高度非線性數(shù)據(jù)。

基于神經(jīng)網(wǎng)絡(luò)的降維方法

自動(dòng)編碼神經(jīng)網(wǎng)絡(luò)法(auto-encoder networks):是一種前向反饋網(wǎng)絡(luò)。該網(wǎng)絡(luò)把高維空間的輸入向量映射到具有最少神經(jīng)元的一層的激勵(lì) 所表示的低維空間中,而具有最少神經(jīng)元的一層的下一層再把低維表示映射到D維空間。

自組織映射法(self-organizing mapping):對(duì)每個(gè)聚類(lèi)都賦予降維后的空間中的固定位置,并根據(jù)該位置用鄰居函數(shù)來(lái)評(píng)價(jià)聚類(lèi)之間的近似度。鄰居函數(shù)的值越大聚類(lèi)之間的接近程度越高。根據(jù)鄰居函數(shù)值,高維數(shù)據(jù)被映射到最優(yōu)聚類(lèi)的位置,實(shí)現(xiàn)高維數(shù)據(jù)的降維。該方法能很好地用于高維數(shù)據(jù)可視化。

生成建模法(generative modelling): 是基于混合密度估計(jì)的,所有的聚類(lèi)都用高斯混合密度表示。

基于數(shù)據(jù)間相關(guān)度的降維方法

多維比例法(multi-dimensional scaling): 是 尋找保留了數(shù)據(jù)主要特征的低維空間,在該空間里 的數(shù)據(jù)點(diǎn)不僅和高維空間中的原數(shù)據(jù)對(duì)應(yīng),并且保持原數(shù)據(jù)點(diǎn)之間的歐式距離的差異度。適用于原始數(shù)據(jù)的距離矩陣已知的情況。

隨機(jī)鄰居嵌入法(stochastic neighbor embedding): 不直接使用數(shù)據(jù)間的差異,而是用它們定義轉(zhuǎn)換矩陣,該矩陣的每一行都包含了與一個(gè)數(shù)據(jù)點(diǎn)相關(guān)聯(lián)的分布,該矩陣則定義了數(shù)據(jù)點(diǎn)集上的隨機(jī)遍歷。

等容積法(isometric mapping): 是對(duì)多維比例法的擴(kuò)展,區(qū)別在于采用測(cè)地距離表示兩點(diǎn)的差異。

局部線性嵌入法(locally linear embedding): 是非線性降維方法,其中高維空間由許多描述它的本質(zhì)屬性并且相互鄰接的局部線性塊組成。該方法有效地獲取高維數(shù)據(jù)的本質(zhì)特征,計(jì)算方法簡(jiǎn)單、直觀。

拉普拉斯特征映射法(Laplacian eigen maps):拉普拉斯特征映射法首先將數(shù)據(jù)點(diǎn)與其最近鄰居連接起來(lái)以構(gòu)建一個(gè)鄰居圖,然后給圖的每條邊均賦予相應(yīng)的權(quán)值,最后尋求數(shù)據(jù)集的嵌入坐標(biāo)表示,并保證嵌入點(diǎn)之間的平方距離最小,從而得 到降維空間中的最優(yōu)低維表示向量。

基于分形的降維方法

如果一個(gè)數(shù)據(jù)集的部分分布結(jié)構(gòu)或?qū)傩耘c整體 分布相似,則稱該數(shù)據(jù)集是分形的?;诜中蔚慕?維方法首先要比較準(zhǔn)確地估計(jì)出數(shù)據(jù)的本征維,包 括分?jǐn)?shù)維,進(jìn)而進(jìn)行降維處理。

遷移學(xué)習(xí)隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)在理論研究和實(shí)踐應(yīng)用兩個(gè)方面都取得了巨大進(jìn)步。為了保證訓(xùn)練得到的分類(lèi)模型具有可信的分類(lèi)效果,傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常假設(shè)數(shù)據(jù)的生成機(jī)制不隨環(huán)境改變,即要求源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)具有相同的分布。然而在機(jī)器學(xué)習(xí)的實(shí)際應(yīng)用領(lǐng)域中,如自然語(yǔ)言處理、大數(shù)據(jù)分析、生物信息技術(shù)、自動(dòng)控制等,這一假設(shè)通常因?yàn)檫^(guò)于嚴(yán)格而不能成立。遷移學(xué)習(xí)(Transfer Learning,TL)的出現(xiàn)打破了這一限制要求,只要源領(lǐng)域和目標(biāo)領(lǐng)域之間具有一定的關(guān)聯(lián)關(guān)系,在目標(biāo)領(lǐng)域分類(lèi)模型訓(xùn)練時(shí)就可以借助從源領(lǐng)域數(shù)據(jù)和特征中已經(jīng)提取的知識(shí),實(shí)現(xiàn)已學(xué)習(xí)知識(shí)在相似或相關(guān)領(lǐng)域間的復(fù)用和遷移,使傳統(tǒng)的從零開(kāi)始學(xué)習(xí)變成可積累學(xué)習(xí),不僅降低了模型訓(xùn)練的成本,而且可以顯著提高機(jī)器學(xué)習(xí)的效果。因此遷移學(xué)習(xí)可以幫助人們處理一些新的應(yīng)用場(chǎng)景,使機(jī)器學(xué)習(xí)在沒(méi)有充足可用標(biāo)簽數(shù)據(jù)和規(guī)模化應(yīng)用時(shí)也能夠?qū)崿F(xiàn)。遷移學(xué)習(xí)作為一種新的學(xué)習(xí)框架受到越來(lái)越多學(xué)者的關(guān)注和研究。美國(guó)國(guó)防部DARPA機(jī)器人大賽文檔系列給出了遷移學(xué)習(xí)的基本定義:利用事先學(xué)習(xí)的知識(shí)和技能來(lái)識(shí)別新任務(wù)的學(xué)習(xí)能力。遷移學(xué)習(xí)是運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問(wèn)題進(jìn)行求解的新的一種機(jī)器學(xué)習(xí)方法。 它放寬了傳統(tǒng)機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè), 目的是遷移已有的知識(shí)來(lái)解決目標(biāo)領(lǐng)域中僅有少量或甚至沒(méi)有有標(biāo)簽樣本數(shù)據(jù)時(shí)的學(xué)習(xí)問(wèn)題。

遷移學(xué)習(xí)廣泛存在于人類(lèi)的認(rèn)知學(xué)習(xí)活動(dòng)中,比如一個(gè)人如果會(huì)使用 C++編程,那么他很容易就會(huì)掌握 Java 編程語(yǔ)言;一個(gè)人要是會(huì)拉小提琴,那么他就能夠輕松地把拉小提琴的相關(guān)音樂(lè)知識(shí)遷移到學(xué)習(xí)鋼琴中去。而且在遷移學(xué)習(xí)的兩個(gè)領(lǐng)域之間,可以共享的信息越多、相似度越高,知識(shí)遷移學(xué)習(xí)的效果就越好,反之,效果越差,甚至?xí)o目標(biāo)領(lǐng)域數(shù)據(jù)的學(xué)習(xí)帶來(lái)不好的影響,即產(chǎn)生“負(fù)遷移”現(xiàn)象。

本詞條內(nèi)容貢獻(xiàn)者為:

方正 - 副教授 - 江南大學(xué)