1、為什么要特征縮放
分類(lèi)時(shí)候使用一些算法基于歐幾里得距離,歐幾里得距離對(duì)特征尺度非常敏感。
下面給出了一些對(duì)特征縮放非常敏感的算法。 這些算法對(duì)特征縮放很敏感,因?yàn)樗鼈內(nèi)Q于距離和高斯曲線(xiàn)。
? ? ?線(xiàn)性和邏輯回歸
? ? ?神經(jīng)網(wǎng)絡(luò)
? ? ?支持向量機(jī)
? ? ?K均值聚類(lèi)
? ? ?K最近鄰居
? ? ?主成分分析
對(duì)特征縮放不敏感的算法。對(duì)特征縮放不敏感的算法通常是“基于樹(shù)的”算法
? ? 分類(lèi)和回歸樹(shù)
? ? ?森林隨機(jī)回歸
2、主要操作
歸一化:在0到1之間縮放要素值歸一化。這稱(chēng)為最小-最大縮放。
標(biāo)準(zhǔn)化:基于標(biāo)準(zhǔn)偏差。 它衡量功能中價(jià)值的傳播。 這是最常用的之一。
標(biāo)準(zhǔn)化和歸一化經(jīng)常可互換使用。 雖然歸一化是在0到1之間縮放值,但是標(biāo)準(zhǔn)化大約是將平均值設(shè)為0,將標(biāo)準(zhǔn)偏差設(shè)為1。在確定我們需要標(biāo)準(zhǔn)化還是歸一化時(shí),需要考慮一些要點(diǎn)。
當(dāng)數(shù)據(jù)代表高斯曲線(xiàn)時(shí),可以使用標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化不受異常值的影響。
歸一化對(duì)異常值的影響很高
非高斯曲線(xiàn)表示時(shí)的歸一化效果很好