1. 引子
對房屋售價(jià)進(jìn)行預(yù)測時(shí),我們的特征僅有房屋面積一項(xiàng),但是,在實(shí)際生活中,臥室數(shù)目也一定程度上影響了房屋售價(jià)。下面,我們有這樣一組訓(xùn)練樣本:

注意到,房屋面積及臥室數(shù)量兩個(gè)特征在數(shù)值上差異巨大,如果直接將該樣本送入訓(xùn)練,則代價(jià)函數(shù)的輪廓會是“扁長的”,在找到最優(yōu)解前,梯度下降的過程不僅是曲折的,也是非常耗時(shí)的:

2. 機(jī)器學(xué)習(xí)中常用的歸一化算法
線性比例變換法:求和max的比例
極差變換法:求區(qū)間比例
0均值標(biāo)準(zhǔn)化(Z-score方法)

不同歸一化方法分析:
2.1 線性變換和極差法(線性歸一化)
將原始數(shù)據(jù)線性化的方法轉(zhuǎn)換到[0 1]的范圍,該方法實(shí)現(xiàn)對原始數(shù)據(jù)的等比例縮放。通過利用變量取值的最大值和最小值(或者最大值)將原始數(shù)據(jù)轉(zhuǎn)換為界于某一特定范圍的數(shù)據(jù),從而消除量綱和數(shù)量級影響,改變變量在分析中的權(quán)重來解決不同度量的問題。由于極值化方法在對變量無量綱化過程中僅僅與該變量的最大值和最小值這兩個(gè)極端值有關(guān),而與其他取值無關(guān),這使得該方法在改變各變量權(quán)重時(shí)過分依賴兩個(gè)極端取值。
2.2 標(biāo)準(zhǔn)化方法
即每一變量值與其平均值之差除以該變量的標(biāo)準(zhǔn)差。雖然該方法在無量綱化過程中利用了所有的數(shù)據(jù)信息,但是該方法在無量綱化后不僅使得轉(zhuǎn)換后的各變量均值相同,且標(biāo)準(zhǔn)差也相同,即無量綱化的同時(shí)還消除了各變量在變異程度上的差異,從而轉(zhuǎn)換后的各變量在聚類分析中的重要性程度是同等看待的。而實(shí)際分析中,經(jīng)常根據(jù)各變量在不同單位間取值的差異程度大小來決定其在分析中的重要性程度,差異程度大的其分析權(quán)重也相對較大。
2.3 分析
每個(gè)維度都是去量綱化的,避免了不同量綱的選取對距離計(jì)算產(chǎn)生的巨大影響。在分類、聚類算法中,需要使用距離來度量相似性的時(shí)候、或者使用PCA技術(shù)進(jìn)行降維的時(shí)候,第二種方法(Z-score standardization)表現(xiàn)更好。在不涉及距離度量、協(xié)方差計(jì)算、數(shù)據(jù)不符合正太分布的時(shí)候,可以使用第一種方法或其他歸一化方法。比如圖像處理中,將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在[0 255]的范圍。
2.4 機(jī)器學(xué)習(xí)中哪些算法可以不做歸一化
概率模型不需要?dú)w一化,因?yàn)樗鼈?strong>不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率。像svm、線性回歸之類的最優(yōu)化問題就需要?dú)w一化。決策樹屬于前者。歸一化也是提升算法應(yīng)用能力的必備能力之一。
2.5歸一化對梯度下降的影響
歸一化后加快了梯度下降求最優(yōu)解的速度和有可能提高精度。如下圖所示,藍(lán)色的圈圈圖代表的是兩個(gè)特征的等高線。其中左圖兩個(gè)特征X1和X2的區(qū)間相差非常大,X1區(qū)間是[0,2000],X2區(qū)間是[1,5],其所形成的等高線非常尖。當(dāng)使用梯度下降法尋求最優(yōu)解時(shí),很有可能走“之字型”路線(垂直等高線走),從而導(dǎo)致需要迭代很多次才能收斂;而右圖對兩個(gè)原始特征進(jìn)行了歸一化,其對應(yīng)的等高線顯得很圓,在梯度下降進(jìn)行求解時(shí)能較快的收斂。因此如果機(jī)器學(xué)習(xí)模型使用梯度下降法求最優(yōu)解時(shí),歸一化往往非常有必要,否則很難收斂甚至不能收斂。
