版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-特征縮放

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

特征縮放是用來統(tǒng)一資料中的自變項(xiàng)或特征范圍的方法,在資料處理中,通常會(huì)被使用在資料前處理這個(gè)步驟。因?yàn)樵谠嫉馁Y料中,各變數(shù)的范圍大不相同。

簡介對于某些機(jī)器學(xué)習(xí)的算法,若沒有做過標(biāo)準(zhǔn)化,目標(biāo)函數(shù)會(huì)無法適當(dāng)?shù)倪\(yùn)作。舉例來說,多數(shù)的分類器利用兩點(diǎn)間的距離計(jì)算兩點(diǎn)的差異,若其中一 個(gè)特征具有非常廣的范圍,那兩點(diǎn)間的差異就會(huì)被該特征左右,因此,所有的特征都該被標(biāo)準(zhǔn)化,這樣才能大略的使各特征依比例影響距離。

特征縮放(Feature Scaling)是將不同特征的值量化到同一區(qū)間的方法,也是預(yù)處理中容易忽視的關(guān)鍵步驟之一。除了極少數(shù)算法(如決策樹和隨機(jī)森林)之外,大部分機(jī)器學(xué)習(xí)和優(yōu)化算法采用特征縮放后會(huì)表現(xiàn)更優(yōu)。

動(dòng)機(jī)因?yàn)樵谠嫉馁Y料中,各變數(shù)的范圍大不相同。對于某些機(jī)器學(xué)習(xí)的算法,若沒有做過標(biāo)準(zhǔn)化,目標(biāo)函數(shù)會(huì)無法適當(dāng)?shù)倪\(yùn)作。舉例來說,多數(shù)的分類器利用兩點(diǎn)間的距離計(jì)算兩點(diǎn)的差異,若其中一 個(gè)特征具有非常廣的范圍,那兩點(diǎn)間的差異就會(huì)被該特征左右,因此,所有的特征都該被標(biāo)準(zhǔn)化,這樣才能大略的使各特征依比例影響距離。

另外一個(gè)做特征縮放的理由是他能使加速梯度下降法的收斂。1

方法重新縮放最簡單的方式是重新縮放特征的范圍到[0, 1]或[-1, 1], 依據(jù)原始的資料選擇目標(biāo)范圍,通式如下:

x 是原始的值, x' 是被標(biāo)準(zhǔn)化后的值。例如,假設(shè)我們有學(xué)生的體重資料,范圍落在[160磅, 200磅],為了重新縮放這個(gè)資料,我們會(huì)先將每個(gè)學(xué)生的體重減掉160,接著除與40(最大體重與最小體重的差值)2

標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)中,我們可能要處理不同種類的資料,例如,音訊和圖片上的像素值,這些資料可能是高維度的,資料標(biāo)準(zhǔn)化后會(huì)使每個(gè)特征中的數(shù)值平均變?yōu)?(將每個(gè)特征的值都減掉原始資料中該特征的平均)、標(biāo)準(zhǔn)差變?yōu)?,這個(gè)方法被廣泛的使用在許多機(jī)器學(xué)習(xí)算法中(例如:支持向量機(jī)、邏輯回歸和類神經(jīng)網(wǎng)絡(luò))。2

優(yōu)點(diǎn)特征縮放可以使機(jī)器學(xué)習(xí)算法工作的更好。比如在K近鄰算法中,分類器主要是計(jì)算兩點(diǎn)之間的歐幾里得距離,如果一個(gè)特征比其它的特征有更大的范圍值,那么距離將會(huì)被這個(gè)特征值所主導(dǎo)。因此每個(gè)特征應(yīng)該被歸一化,比如將取值范圍處理為0到1之間。

特征縮放也可以加快梯度收斂的速度。1

應(yīng)用在隨機(jī)梯度下降法中, 特征縮放有時(shí)能加速其收斂速度。而在支持向量機(jī)中,他可以使其花費(fèi)更少時(shí)間找到支持向量,特征縮放會(huì)改變支持向量機(jī)的結(jié)果。1

本詞條內(nèi)容貢獻(xiàn)者為:

曹慧慧 - 副教授 - 中國礦業(yè)大學(xué)