欧美精品久久久久,1234中文碰碰

對于數(shù)據(jù)較好的處理，可以減輕模型負(fù)擔(dān)，搞一個好的數(shù)據(jù)預(yù)處理比搞一個好的學(xué)習(xí)算法要容易很多吧。

（1）中心化

? ? 每個特征維度都減去相應(yīng)的均值實現(xiàn)中心化，這樣可以使數(shù)據(jù)變?yōu)?均值，對于一些圖像數(shù)據(jù)，一般為了方便直接減去一個相同的值。

（2）標(biāo)準(zhǔn)化

? ? 數(shù)據(jù)變?yōu)?均值后，需要使用標(biāo)準(zhǔn)化的做法使數(shù)據(jù)在不同維度服從相同分布。一般有兩種辦法：

? ? ? ? 除以標(biāo)準(zhǔn)差，讓新數(shù)據(jù)的分布接近標(biāo)準(zhǔn)高斯分布；

? ? ? ? 讓每一特征維度的最大值和最小值按比例縮放到-1~1之間。也叫歸一化。

? ? 數(shù)據(jù)歸一化有很大優(yōu)勢：不同評價指標(biāo)往往具有不同的量綱和量綱單位，這樣的情況會影響到數(shù)據(jù)分析的結(jié)果，為了消除指標(biāo)之間的量綱影響（加快梯度下降法中對收斂速度），需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理，以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后，各指標(biāo)處于同一數(shù)量級，適合進(jìn)行綜合對比評價。這是數(shù)據(jù)挖掘中一項基礎(chǔ)的工作。

是否歸一化對學(xué)習(xí)效率的影響

（3）主成分分析PCA

? ? 主成分分析是一種常見的降維方法，可以通過減小數(shù)據(jù)規(guī)模來使得學(xué)習(xí)過程變得更加容易。

? ? 其主要思想是將數(shù)據(jù)映射到一條線上去，使得投影后樣本點的方差最大化。

? ? 如圖，第一個主成分來自方差最大的方向，第二個主成分來自方差次大的方向，且與第一個主成分方向正交。

? ? 其計算過程為：

? ? ? ? 去除均值；

? ? ? ? 計算協(xié)方差矩陣；

? ? ? ? 計算協(xié)方差矩陣的特征值和特征向量；（特征值表示一個特征有多重要，特征向量表示表示特征是什么。Ax= m X;）

? ? ? ? 將特征值從大到小排序；

? ? ? ? 保留最前面的N個特征向量；

? ? ? ? 將數(shù)據(jù)轉(zhuǎn)換到上述N個特征向量構(gòu)建的新空間中。

（4）SVD

? ? SVD通過對原始數(shù)據(jù)的逼近來降維。常用來進(jìn)行推薦（計算任何計算項的相似度）和提取主題。其公式為 $Data_{m*x} = U_{m*n} * \Sigma _{m*n} *V^T _{n*n}$ ;這個分解會得到一個對角矩陣 $\Sigma$ ，這些對角元素從大到小排列，稱為奇異值。實際上，這里的奇異值和PCA中的特征值是有關(guān)系的，奇異值是 $Data*Data$ 特征值的平方根。不同的是特征值分解對應(yīng)的是方陣，而奇異值分解可以對應(yīng)合作矩陣。

SVD數(shù)據(jù)分解

????????在實際應(yīng)用中，一般對奇異值求平方和，使其可以達(dá)到總量的90%為止，或者對于上萬特征，取奇異值排名前2000-3000的特征，這需要對數(shù)據(jù)有充分的了解。

（5）白噪聲

? ? 白噪聲和PCA一樣，也是將數(shù)據(jù)投影到另一個空間，然后每個維度處于特征值來標(biāo)準(zhǔn)化這些數(shù)據(jù)，直觀上就是一個多元高斯分布轉(zhuǎn)化到了一個0均值，協(xié)方差矩陣為1的多元高斯分布。但是白噪聲會增強(qiáng)數(shù)據(jù)中的噪聲，因為他增強(qiáng)了數(shù)據(jù)的所有維度。一般在卷積神經(jīng)網(wǎng)絡(luò)中，白噪聲和PCA都用的不多。

（6）缺失值的處理

? ? 對于缺失值的處理可以考慮填均值、眾數(shù)、類似樣本的值，忽略該樣本、標(biāo)記為特殊值等。

????分別考慮連續(xù)數(shù)據(jù)還是離散數(shù)據(jù)是不同的。比如風(fēng)霜雨雪之類的還是每天的氣溫。是否正太分布等。

? ? 對于離散數(shù)據(jù)一般考慮眾數(shù)或者中位數(shù)；對于連續(xù)數(shù)據(jù)，需要曲線擬合。

? ??隨機(jī)森林缺失值處理，數(shù)值型一般用中位數(shù)、枚舉型用眾數(shù)，非高斯分布情況下，比較相似度

????XGBOOST缺失值處理：將缺失內(nèi)容看作稀疏矩陣，并不單獨(dú)處理，而是看分在右子樹或者左子樹，看那一邊效果好就分那一邊。

（7）非平衡數(shù)據(jù)集的處理

? ??調(diào)節(jié)多個分類器的閾值或者損失函數(shù)的權(quán)重，（代價敏感的學(xué)習(xí)），增加小類別的權(quán)重。

????過采樣或者欠采樣

（8）數(shù)據(jù)擴(kuò)增

? ? 在卷積神經(jīng)網(wǎng)絡(luò) 中，需要通過data arguement 來實現(xiàn)數(shù)據(jù)擴(kuò)增，常用的數(shù)據(jù)增強(qiáng)的方法有水平翻轉(zhuǎn)、隨機(jī)裁剪、平移變換、顏色、光照、對比度變換。

（9）數(shù)據(jù)數(shù)字化編碼

????對于非數(shù)值型特征，其預(yù)處理方法主要有：序號編碼、熱獨(dú)編碼、二進(jìn)制編碼。

????像決策樹、隨機(jī)森林、樸素貝葉斯可以直接處理非數(shù)值特征。

（10）LDA

? ? ??LDA也可以看作一個降維技術(shù)。其被映射的直線的W稱為降維矩陣（考慮了類別分布的）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

（4）數(shù)據(jù)預(yù)處理

（4）數(shù)據(jù)預(yù)處理

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

（4）數(shù)據(jù)預(yù)處理

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av