https://blog.csdn.net/GoodShot/article/details/80373372
一、中心化(又叫零均值化)和標準化(又叫歸一化)概念及目的?
1、在回歸問題和一些機器學(xué)習(xí)算法中,以及訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,通常需要對原始數(shù)據(jù)進行中心化(Zero-centered或者Mean-subtraction(subtraction表示減去))處理和標準化(Standardization或Normalization)處理
數(shù)據(jù)標準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理,以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級,適合進行綜合對比評價。
意義:數(shù)據(jù)中心化和標準化在回歸分析中是取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差。原理:數(shù)據(jù)標準化:是指數(shù)值減去均值,再除以標準差;
數(shù)據(jù)中心化:是指變量減去它的均值。
目的:通過中心化和標準化處理,得到均值為0,標準差為1的服從標準正態(tài)分布的數(shù)據(jù)。
2、(1)中心化(零均值化)后的數(shù)據(jù)均值為零
(2)z-score 標準化后的數(shù)據(jù)均值為0,標準差為1(方差也為1)
三、下面解釋一下為什么需要使用這些數(shù)據(jù)預(yù)處理步驟。
在一些實際問題中,我們得到的樣本數(shù)據(jù)都是多個維度的,即一個樣本是用多個特征來表征的。比如在預(yù)測房價的問題中,影響房價的因素有房子面積、臥室數(shù)量等,我們得到的樣本數(shù)據(jù)就是這樣一些樣本點,這里的、又被稱為特征。很顯然,這些特征的量綱和數(shù)值得量級都是不一樣的,在預(yù)測房價時,如果直接使用原始的數(shù)據(jù)值,那么他們對房價的影響程度將是不一樣的,而通過標準化處理,可以使得不同的特征具有相同的尺度(Scale)。簡言之,當原始數(shù)據(jù)不同維度上的特征的尺度(單位)不一致時,需要標準化步驟對數(shù)據(jù)進行預(yù)處理。
下圖中以二維數(shù)據(jù)為例:左圖表示的是原始數(shù)據(jù);中間的是中心化后的數(shù)據(jù),數(shù)據(jù)被移動大原點周圍;右圖將中心化后的數(shù)據(jù)除以標準差,得到為標準化的數(shù)據(jù),可以看出每個維度上的尺度是一致的(紅色線段的長度表示尺度)。
其實,在不同的問題中,中心化和標準化有著不同的意義,

比如在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,通過將數(shù)據(jù)標準化,能夠加速權(quán)重參數(shù)的收斂。
·???????對數(shù)據(jù)進行中心化預(yù)處理,這樣做的目的是要增加基向量的正交性。
四、歸一化
兩個優(yōu)點:
1)歸一化后加快了梯度下降求最優(yōu)解的速度;
2)歸一化有可能提高精度。
1、 歸一化為什么能提高梯度下降法求解最優(yōu)解的速度?
如下圖所示,藍色的圈圈圖代表的是兩個特征的等高線。其中左圖兩個特征X1和X2的區(qū)間相差非常大,X1區(qū)間是[0,2000],X2區(qū)間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優(yōu)解時,很有可能走“之字型”路線(垂直等高線走),從而導(dǎo)致需要迭代很多次才能收斂;而右圖對兩個原始特征進行了歸一化,其對應(yīng)的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。因此如果機器學(xué)習(xí)模型使用梯度下降法求最優(yōu)解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。

2、歸一化有可能提高精度
一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特征值域范圍非常大,那么距離計算就主要取決于這個特征,從而與實際情況相悖(比如這時實際情況是值域范圍小的特征更重要)。
3、以下是兩種常用的歸一化方法:
1)min-max標準化(Min-MaxNormalization)
也稱為離差標準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下:

其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義。
2)Z-score標準化(0-1標準化)方法
這種方法給予原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1。
轉(zhuǎn)化函數(shù)為:

其中為所有樣本數(shù)據(jù)的均值,為所有樣本數(shù)據(jù)的標準差。
下面兩幅圖是數(shù)據(jù)做中心化(centering)前后的對比,可以看到其實就是一個平移的過程,平移后所有數(shù)據(jù)的中心是(0,0).

在做PCA的時候,我們需要找出矩陣的特征向量,也就是主成分(PC)。比如說找到的第一個特征向量是a = [1, 2],a在坐標平面上就是從原點出發(fā)到點 (1,2)的一個向量。
如果沒有對數(shù)據(jù)做中心化,那算出來的第一主成分的方向可能就不是一個可以“描述”(或者說“概括”)數(shù)據(jù)的方向了。還是看圖比較清楚。
黑色線就是第一主成分的方向。只有中心化數(shù)據(jù)之后,計算得到的方向才2能比較好的“概括”原來的數(shù)據(jù)。

參考:
1.https://blog.csdn.net/goodshot/article/details/79488629
2.https://blog.csdn.net/GoodShot/article/details/78241862