99草视频在线,欧美精选一区二区

姓名：劉帆；學(xué)號：20021210609；學(xué)院：電子工程學(xué)院

轉(zhuǎn)載于：

https://blog.csdn.net/donghua_wu/article/details/45746569

【嵌牛導(dǎo)讀】以2009 KDD Challenge 大數(shù)據(jù)集來預(yù)測客戶流失量為例子。該數(shù)據(jù)集維度達(dá)到 15000 維。大多數(shù)數(shù)據(jù)挖掘算法都直接對數(shù)據(jù)逐列處理，在數(shù)據(jù)數(shù)目一大時(shí)，導(dǎo)致算法越來越慢。那么如何能實(shí)現(xiàn)在減少數(shù)據(jù)列數(shù)的同時(shí)保證丟失的數(shù)據(jù)信息盡可能少呢。

【嵌牛鼻子】數(shù)據(jù)降維

【嵌牛提問】如何實(shí)現(xiàn)數(shù)據(jù)降維

【嵌牛正文】

隨著數(shù)據(jù)集的增加，衍生出大數(shù)據(jù)平臺和并行數(shù)據(jù)分析算法，同時(shí)數(shù)據(jù)的降維過程的使用重要性也隨之凸顯。數(shù)據(jù)的維度并不是越多越好，在數(shù)據(jù)分析的過程大量的數(shù)據(jù)也可能產(chǎn)生很差的表現(xiàn)效果。現(xiàn)在就自己最近看的一篇文章總結(jié)降維的幾種方法：

1.缺失值的比例

數(shù)據(jù)列如果存在太多的缺失值是不可能有太多的有用信息，因此設(shè)定一個(gè)閾值，如果數(shù)據(jù)列缺失的數(shù)據(jù)大于閾值時(shí)將數(shù)據(jù)列刪除，設(shè)定的閾值越大刪除的數(shù)據(jù)列越多隨之維度減少的幅度也越大

2.低方差過濾

和缺失值比例很相似，數(shù)據(jù)列中的數(shù)據(jù)很小的變動即方差過小時(shí)（低于預(yù)先設(shè)定的閾值）刪除數(shù)據(jù)列。特別注意的是：方差是依賴于范圍的，因此在應(yīng)用該方法前對數(shù)據(jù)正則化處理。

3.高相關(guān)過濾

數(shù)據(jù)列中有相似趨勢往往也存在著相似的信息，這種情況下往往一個(gè)數(shù)據(jù)列就可以參與機(jī)器學(xué)習(xí)的模型的建立了，因此我們需要計(jì)算數(shù)值列之間的相關(guān)系數(shù)和標(biāo)稱列之間的皮爾遜積矩系數(shù)和皮爾遜卡方值，雙列的相關(guān)系數(shù)高于設(shè)定的閾值時(shí)可以減少到只有一個(gè)。提醒一下：相關(guān)量比較敏感，因此列的歸一化需要一個(gè)相對有意義的相關(guān)性比較。

4.Random Forests / Ensemble Trees

決策樹的ensemble也成為RF（隨機(jī)森林），除了在做有效的分類器很有用外，在特征選擇方面也很有效果。一種降維的方法是針對目標(biāo)屬性生成一個(gè)大的和構(gòu)造的樹,然后使用每個(gè)屬性的使用統(tǒng)計(jì)數(shù)據(jù)發(fā)現(xiàn)大多數(shù)信息的特征子集。特別地，我們可以生成大量層次很低的樹（2層），與每棵樹正在訓(xùn)練總額的一小部分?jǐn)?shù)量的屬性。如果一個(gè)屬性經(jīng)常被選為最佳的，它是最有可能被保留的一個(gè)有效特征。在RF中分?jǐn)?shù)計(jì)算的隨機(jī)屬性的使用統(tǒng)計(jì)數(shù)據(jù)告訴我們——相對于其他屬性——這是最有預(yù)測力的屬性。

5.PCA（主成分分析）

主成分分析(PCA)是一種正交統(tǒng)計(jì)過程,將一個(gè)數(shù)據(jù)集的原始n坐標(biāo)轉(zhuǎn)換成一個(gè)新的n組坐標(biāo)（叫做主成分）。轉(zhuǎn)化的結(jié)果，第一個(gè)主成分具有最大可能的方差，在正交于（不相關(guān)）先前的主成分的限制條件下，每個(gè)成功轉(zhuǎn)化后的成分都具有最高可能的方差。只保留第一個(gè)m < n成分降低了數(shù)據(jù)的維度,同時(shí)保留大部分的數(shù)據(jù)信息也就是變化的數(shù)據(jù)。注意,PCA轉(zhuǎn)化對原始變量的變化比例很敏感。數(shù)據(jù)列（維度）范圍在應(yīng)用PCA之前需要正則化；同時(shí)也要注意新的坐標(biāo)系（PCs）不再是真正的系統(tǒng)變量了；PCA在應(yīng)用到你的數(shù)據(jù)集產(chǎn)生新的維度時(shí)也就失去了它的可解釋性，如果結(jié)果的可解釋性對于你的數(shù)據(jù)分析很重要，那么在針對你的項(xiàng)目分析時(shí)，PCA不能作為你的首要選擇轉(zhuǎn)化方法。

6.反向特征的消除

這個(gè)方法中，在給定的迭代次數(shù)下選定的分類算法對n個(gè)輸入特征進(jìn)行訓(xùn)練，然后我們每次刪除一個(gè)輸入特征用相同的模型對剩下的n-1個(gè)輸入特征訓(xùn)練n次，刪除的輸入特征在錯誤率上已產(chǎn)生最小的增長應(yīng)該就將其刪除，留給我們將剩余的n-1個(gè)輸入特征。分類器接著使用n-2個(gè)特征作為輸入，等等…每次迭代k產(chǎn)生一個(gè)模型訓(xùn)練n-k特征和一個(gè)出錯率e(k)；選擇一個(gè)最大可容許的錯誤率，我們定義的最小數(shù)量的特性必須達(dá)到所選的機(jī)器學(xué)習(xí)算法的分類器的性能。

7.正向特征的構(gòu)建

這種方法和反向特征消除方法具有相反的處理過程。剛開始只處理一個(gè)特征，然后逐步每次添加一個(gè)特征，也就是說輸入特征即特征維度在分類器的性能上產(chǎn)生最大的增加。就這兩種算法而言，計(jì)算特別耗時(shí)而且計(jì)算量也特別大，它們實(shí)際上只適用于一個(gè)數(shù)據(jù)集已經(jīng)相對具有較少的輸入列（特偵維度）。

除了上面談到的幾種方法外，隨機(jī)推測、NMF、自動編碼器、卡方檢驗(yàn)或信息增益、多維度等級法、一致性分析、因子分析、聚類和貝葉斯模型在數(shù)據(jù)降維上表現(xiàn)也不錯。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)降維的幾種方法

數(shù)據(jù)降維的幾種方法

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)降維的幾種方法

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av