對于數(shù)據(jù)較好的處理,可以減輕模型負(fù)擔(dān),搞一個好的數(shù)據(jù)預(yù)處理比搞一個好的學(xué)習(xí)算法要容易很多吧。
(1)中心化
? ? 每個特征維度都減去相應(yīng)的均值實現(xiàn)中心化,這樣可以使數(shù)據(jù)變?yōu)?均值,對于一些圖像數(shù)據(jù),一般為了方便直接減去一個相同的值。
(2)標(biāo)準(zhǔn)化
? ? 數(shù)據(jù)變?yōu)?均值后,需要使用標(biāo)準(zhǔn)化的做法使數(shù)據(jù)在不同維度服從相同分布。一般有兩種辦法:
? ? ? ? 除以標(biāo)準(zhǔn)差,讓新數(shù)據(jù)的分布接近標(biāo)準(zhǔn)高斯分布;
? ? ? ? 讓每一特征維度的最大值和最小值按比例縮放到-1~1之間。也叫歸一化。
? ? 數(shù)據(jù)歸一化有很大優(yōu)勢:不同評價指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響(加快梯度下降法中對收斂速度),需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級,適合進(jìn)行綜合對比評價。這是數(shù)據(jù)挖掘中一項基礎(chǔ)的工作。

(3)主成分分析PCA
? ? 主成分分析是一種常見的降維方法,可以通過減小數(shù)據(jù)規(guī)模來使得學(xué)習(xí)過程變得更加容易。
? ? 其主要思想是將數(shù)據(jù)映射到一條線上去,使得投影后樣本點的方差最大化。

? ? 如圖,第一個主成分來自方差最大的方向,第二個主成分來自方差次大的方向,且與第一個主成分方向正交。
? ? 其計算過程為:
? ? ? ? 去除均值;
? ? ? ? 計算協(xié)方差矩陣;
? ? ? ? 計算協(xié)方差矩陣的特征值和特征向量;(特征值表示一個特征有多重要,特征向量表示表示特征是什么。Ax= m X;)
? ? ? ? 將特征值從大到小排序;
? ? ? ? 保留最前面的N個特征向量;
? ? ? ? 將數(shù)據(jù)轉(zhuǎn)換到上述N個特征向量構(gòu)建的新空間中。
(4)SVD
? ? SVD通過對原始數(shù)據(jù)的逼近來降維。常用來進(jìn)行推薦(計算任何計算項的相似度)和提取主題。其公式為;這個分解會得到一個對角矩陣
,這些對角元素從大到小排列,稱為奇異值。實際上,這里的奇異值和PCA中的特征值是有關(guān)系的,奇異值是
特征值的平方根。不同的是特征值分解對應(yīng)的是方陣,而奇異值分解可以對應(yīng)合作矩陣。

????????在實際應(yīng)用中,一般對奇異值求平方和,使其可以達(dá)到總量的90%為止,或者對于上萬特征,取奇異值排名前2000-3000的特征,這需要對數(shù)據(jù)有充分的了解。
(5)白噪聲
? ? 白噪聲和PCA一樣,也是將數(shù)據(jù)投影到另一個空間,然后每個維度處于特征值來標(biāo)準(zhǔn)化這些數(shù)據(jù),直觀上就是一個多元高斯分布轉(zhuǎn)化到了一個0均值,協(xié)方差矩陣為1的多元高斯分布。但是白噪聲會增強(qiáng)數(shù)據(jù)中的噪聲,因為他增強(qiáng)了數(shù)據(jù)的所有維度。一般在卷積神經(jīng)網(wǎng)絡(luò)中,白噪聲和PCA都用的不多。
(6)缺失值的處理
? ? 對于缺失值的處理可以考慮填均值、眾數(shù)、類似樣本的值,忽略該樣本、標(biāo)記為特殊值等。
????分別考慮連續(xù)數(shù)據(jù)還是離散數(shù)據(jù)是不同的。比如風(fēng)霜雨雪之類的還是每天的氣溫。是否正太分布等。
? ? 對于離散數(shù)據(jù)一般考慮眾數(shù)或者中位數(shù);對于連續(xù)數(shù)據(jù),需要曲線擬合。
? ??隨機(jī)森林缺失值處理,數(shù)值型一般用中位數(shù)、枚舉型用眾數(shù),非高斯分布情況下,比較相似度
????XGBOOST缺失值處理:將缺失內(nèi)容看作稀疏矩陣,并不單獨(dú)處理,而是看分在右子樹或者左子樹,看那一邊效果好就分那一邊。
(7)非平衡數(shù)據(jù)集的處理
? ??調(diào)節(jié)多個分類器的閾值或者損失函數(shù)的權(quán)重,(代價敏感的學(xué)習(xí)),增加小類別的權(quán)重。
????過采樣或者欠采樣
(8)數(shù)據(jù)擴(kuò)增
? ? 在卷積神經(jīng)網(wǎng)絡(luò) 中,需要通過data arguement 來實現(xiàn)數(shù)據(jù)擴(kuò)增,常用的數(shù)據(jù)增強(qiáng)的方法有 水平翻轉(zhuǎn)、隨機(jī)裁剪、平移變換、顏色、光照、對比度變換。
(9)數(shù)據(jù)數(shù)字化編碼
????對于非數(shù)值型特征,其預(yù)處理方法主要有:序號編碼、熱獨(dú)編碼、二進(jìn)制編碼。
????像決策樹、隨機(jī)森林、樸素貝葉斯可以直接處理非數(shù)值特征。
(10)LDA
? ? ??LDA也可以看作一個降維技術(shù)。其被映射的直線的W稱為降維矩陣(考慮了類別分布的)