(4)數(shù)據(jù)預(yù)處理

對于數(shù)據(jù)較好的處理,可以減輕模型負(fù)擔(dān),搞一個好的數(shù)據(jù)預(yù)處理比搞一個好的學(xué)習(xí)算法要容易很多吧。

(1)中心化

? ? 每個特征維度都減去相應(yīng)的均值實現(xiàn)中心化,這樣可以使數(shù)據(jù)變?yōu)?均值,對于一些圖像數(shù)據(jù),一般為了方便直接減去一個相同的值。

(2)標(biāo)準(zhǔn)化

? ? 數(shù)據(jù)變?yōu)?均值后,需要使用標(biāo)準(zhǔn)化的做法使數(shù)據(jù)在不同維度服從相同分布。一般有兩種辦法:

? ? ? ? 除以標(biāo)準(zhǔn)差,讓新數(shù)據(jù)的分布接近標(biāo)準(zhǔn)高斯分布;

? ? ? ? 讓每一特征維度的最大值和最小值按比例縮放到-1~1之間。也叫歸一化。

? ? 數(shù)據(jù)歸一化有很大優(yōu)勢:不同評價指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響(加快梯度下降法中對收斂速度),需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級,適合進(jìn)行綜合對比評價。這是數(shù)據(jù)挖掘中一項基礎(chǔ)的工作。


是否歸一化對學(xué)習(xí)效率的影響

(3)主成分分析PCA

? ? 主成分分析是一種常見的降維方法,可以通過減小數(shù)據(jù)規(guī)模來使得學(xué)習(xí)過程變得更加容易。

? ? 其主要思想是將數(shù)據(jù)映射到一條線上去,使得投影后樣本點的方差最大化。


? ? 如圖,第一個主成分來自方差最大的方向,第二個主成分來自方差次大的方向,且與第一個主成分方向正交。

? ? 其計算過程為:

? ? ? ? 去除均值;

? ? ? ? 計算協(xié)方差矩陣;

? ? ? ? 計算協(xié)方差矩陣的特征值和特征向量;(特征值表示一個特征有多重要,特征向量表示表示特征是什么。Ax= m X;)

? ? ? ? 將特征值從大到小排序;

? ? ? ? 保留最前面的N個特征向量;

? ? ? ? 將數(shù)據(jù)轉(zhuǎn)換到上述N個特征向量構(gòu)建的新空間中。

(4)SVD

? ? SVD通過對原始數(shù)據(jù)的逼近來降維。常用來進(jìn)行推薦(計算任何計算項的相似度)和提取主題。其公式為Data_{m*x} = U_{m*n}  * \Sigma _{m*n} *V^T _{n*n} ;這個分解會得到一個對角矩陣\Sigma ,這些對角元素從大到小排列,稱為奇異值。實際上,這里的奇異值和PCA中的特征值是有關(guān)系的,奇異值是Data*Data特征值的平方根。不同的是特征值分解對應(yīng)的是方陣,而奇異值分解可以對應(yīng)合作矩陣。


SVD數(shù)據(jù)分解

????????在實際應(yīng)用中,一般對奇異值求平方和,使其可以達(dá)到總量的90%為止,或者對于上萬特征,取奇異值排名前2000-3000的特征,這需要對數(shù)據(jù)有充分的了解。

(5)白噪聲

? ? 白噪聲和PCA一樣,也是將數(shù)據(jù)投影到另一個空間,然后每個維度處于特征值來標(biāo)準(zhǔn)化這些數(shù)據(jù),直觀上就是一個多元高斯分布轉(zhuǎn)化到了一個0均值,協(xié)方差矩陣為1的多元高斯分布。但是白噪聲會增強(qiáng)數(shù)據(jù)中的噪聲,因為他增強(qiáng)了數(shù)據(jù)的所有維度。一般在卷積神經(jīng)網(wǎng)絡(luò)中,白噪聲和PCA都用的不多。

(6)缺失值的處理

? ? 對于缺失值的處理可以考慮填均值、眾數(shù)、類似樣本的值,忽略該樣本、標(biāo)記為特殊值等。

????分別考慮連續(xù)數(shù)據(jù)還是離散數(shù)據(jù)是不同的。比如風(fēng)霜雨雪之類的還是每天的氣溫。是否正太分布等。

? ? 對于離散數(shù)據(jù)一般考慮眾數(shù)或者中位數(shù);對于連續(xù)數(shù)據(jù),需要曲線擬合。

? ??隨機(jī)森林缺失值處理,數(shù)值型一般用中位數(shù)、枚舉型用眾數(shù),非高斯分布情況下,比較相似度

????XGBOOST缺失值處理:將缺失內(nèi)容看作稀疏矩陣,并不單獨(dú)處理,而是看分在右子樹或者左子樹,看那一邊效果好就分那一邊。

(7)非平衡數(shù)據(jù)集的處理

? ??調(diào)節(jié)多個分類器的閾值或者損失函數(shù)的權(quán)重,(代價敏感的學(xué)習(xí)),增加小類別的權(quán)重。

????過采樣或者欠采樣

(8)數(shù)據(jù)擴(kuò)增

? ? 在卷積神經(jīng)網(wǎng)絡(luò) 中,需要通過data arguement 來實現(xiàn)數(shù)據(jù)擴(kuò)增,常用的數(shù)據(jù)增強(qiáng)的方法有 水平翻轉(zhuǎn)、隨機(jī)裁剪、平移變換、顏色、光照、對比度變換。

(9)數(shù)據(jù)數(shù)字化編碼

????對于非數(shù)值型特征,其預(yù)處理方法主要有:序號編碼、熱獨(dú)編碼、二進(jìn)制編碼。

????像決策樹、隨機(jī)森林、樸素貝葉斯可以直接處理非數(shù)值特征。

(10)LDA

? ? ??LDA也可以看作一個降維技術(shù)。其被映射的直線的W稱為降維矩陣(考慮了類別分布的)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容