色欲无码视频精品,日韩女优一区二区免费

https://blog.csdn.net/GoodShot/article/details/80373372

一、中心化（又叫零均值化）和標準化（又叫歸一化）概念及目的？

1、在回歸問題和一些機器學(xué)習(xí)算法中，以及訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中，通常需要對原始數(shù)據(jù)進行中心化（Zero-centered或者Mean-subtraction（subtraction表示減去））處理和標準化（Standardization或Normalization）處理

數(shù)據(jù)標準化（歸一化）處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到數(shù)據(jù)分析的結(jié)果，為了消除指標之間的量綱影響，需要進行數(shù)據(jù)標準化處理，以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后，各指標處于同一數(shù)量級，適合進行綜合對比評價。

意義：數(shù)據(jù)中心化和標準化在回歸分析中是取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差。原理：數(shù)據(jù)標準化：是指數(shù)值減去均值，再除以標準差；

數(shù)據(jù)中心化：是指變量減去它的均值。

目的：通過中心化和標準化處理，得到均值為0，標準差為1的服從標準正態(tài)分布的數(shù)據(jù)。

2、（1）中心化（零均值化）后的數(shù)據(jù)均值為零

（2）z-score 標準化后的數(shù)據(jù)均值為0，標準差為1（方差也為1）

三、下面解釋一下為什么需要使用這些數(shù)據(jù)預(yù)處理步驟。

在一些實際問題中，我們得到的樣本數(shù)據(jù)都是多個維度的，即一個樣本是用多個特征來表征的。比如在預(yù)測房價的問題中，影響房價的因素有房子面積、臥室數(shù)量等，我們得到的樣本數(shù)據(jù)就是這樣一些樣本點，這里的、又被稱為特征。很顯然，這些特征的量綱和數(shù)值得量級都是不一樣的，在預(yù)測房價時，如果直接使用原始的數(shù)據(jù)值，那么他們對房價的影響程度將是不一樣的，而通過標準化處理，可以使得不同的特征具有相同的尺度（Scale）。簡言之，當原始數(shù)據(jù)不同維度上的特征的尺度（單位）不一致時，需要標準化步驟對數(shù)據(jù)進行預(yù)處理。

下圖中以二維數(shù)據(jù)為例：左圖表示的是原始數(shù)據(jù)；中間的是中心化后的數(shù)據(jù)，數(shù)據(jù)被移動大原點周圍；右圖將中心化后的數(shù)據(jù)除以標準差，得到為標準化的數(shù)據(jù)，可以看出每個維度上的尺度是一致的（紅色線段的長度表示尺度）。

其實，在不同的問題中，中心化和標準化有著不同的意義，

比如在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中，通過將數(shù)據(jù)標準化，能夠加速權(quán)重參數(shù)的收斂。

·???????對數(shù)據(jù)進行中心化預(yù)處理，這樣做的目的是要增加基向量的正交性。

四、歸一化

兩個優(yōu)點：

1）歸一化后加快了梯度下降求最優(yōu)解的速度；

2）歸一化有可能提高精度。

1、歸一化為什么能提高梯度下降法求解最優(yōu)解的速度？

如下圖所示，藍色的圈圈圖代表的是兩個特征的等高線。其中左圖兩個特征X1和X2的區(qū)間相差非常大，X1區(qū)間是[0,2000]，X2區(qū)間是 [1,5]，其所形成的等高線非常尖。當使用梯度下降法尋求最優(yōu)解時，很有可能走“之字型”路線（垂直等高線走），從而導(dǎo)致需要迭代很多次才能收斂；而右圖對兩個原始特征進行了歸一化，其對應(yīng)的等高線顯得很圓，在梯度下降進行求解時能較快的收斂。因此如果機器學(xué)習(xí)模型使用梯度下降法求最優(yōu)解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

2、歸一化有可能提高精度

一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特征值域范圍非常大，那么距離計算就主要取決于這個特征，從而與實際情況相悖（比如這時實際情況是值域范圍小的特征更重要）。

3、以下是兩種常用的歸一化方法：

1）min-max標準化（Min-MaxNormalization）

也稱為離差標準化，是對原始數(shù)據(jù)的線性變換，使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下：

其中max為樣本數(shù)據(jù)的最大值，min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當有新數(shù)據(jù)加入時，可能導(dǎo)致max和min的變化，需要重新定義。

2）Z-score標準化（0-1標準化）方法

這種方法給予原始數(shù)據(jù)的均值（mean）和標準差（standard deviation）進行數(shù)據(jù)的標準化。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布，即均值為0，標準差為1。

轉(zhuǎn)化函數(shù)為：

其中為所有樣本數(shù)據(jù)的均值，為所有樣本數(shù)據(jù)的標準差。

五、中心化（以PCA為例）

下面兩幅圖是數(shù)據(jù)做中心化（centering）前后的對比，可以看到其實就是一個平移的過程，平移后所有數(shù)據(jù)的中心是（0，0）.

在做PCA的時候，我們需要找出矩陣的特征向量，也就是主成分（PC）。比如說找到的第一個特征向量是a = [1, 2]，a在坐標平面上就是從原點出發(fā)到點（1，2）的一個向量。

如果沒有對數(shù)據(jù)做中心化，那算出來的第一主成分的方向可能就不是一個可以“描述”（或者說“概括”）數(shù)據(jù)的方向了。還是看圖比較清楚。

黑色線就是第一主成分的方向。只有中心化數(shù)據(jù)之后，計算得到的方向才2能比較好的“概括”原來的數(shù)據(jù)。

參考：

1.https://blog.csdn.net/goodshot/article/details/79488629

2.https://blog.csdn.net/GoodShot/article/details/78241862

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

[轉(zhuǎn)載]中心化（又叫零均值化）和標準化（又叫歸一化）

[轉(zhuǎn)載]中心化（又叫零均值化）和標準化（又叫歸一化）

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

[轉(zhuǎn)載]中心化（又叫零均值化）和標準化（又叫歸一化）

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av