學(xué)習(xí)數(shù)據(jù)分析過程中需要掌握的一些概念

異常值

異常值就是偏離樣本整體數(shù)據(jù)的值,分為單變量和多變量異常值。

多變量異常值即出現(xiàn)在n維空間上的異常值。多變量異常值是某幾個(gè)觀測值在單變量上看是正常的,但是放到多維變量上就可能是異常的。

例如:

100cm的身高和100kg的體重分別在身高和體重的維度上看,貌似沒有什么問題。但是如果放在身高和體重的二維上看就發(fā)現(xiàn)這個(gè)(100cm,100kg)的觀測值不正常了。

單變量異常值可以通過箱型圖來觀察,二維變量的異常值可以通過散點(diǎn)圖來觀察。

造成異常值的原因有:

  • 數(shù)據(jù)輸入錯(cuò)誤
  • 測量誤差
  • 實(shí)驗(yàn)誤差
  • 故意離群
  • 數(shù)據(jù)處理錯(cuò)誤
  • 自然異常值

異常值會(huì)對數(shù)據(jù)造成哪些影響?
異常值增加了誤差方差,降低了統(tǒng)計(jì)檢驗(yàn)的效果,同時(shí)如果異常值是非隨機(jī)分布的,它們可能會(huì)減弱樣本的正態(tài)性。

如何去除異常值?

  • 刪除:如果異常值是由于數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)處理錯(cuò)誤或異常值數(shù)目很少,我們可以刪除它們

  • 數(shù)據(jù)轉(zhuǎn)換或聚類:例如對數(shù)據(jù)取對數(shù)可以減少極端值的變化。我們也可以用決策樹直接處理帶有異常值的數(shù)據(jù)(決策樹基本不會(huì)受到異常值和缺失值的影響),或是對不同的觀測值分配權(quán)重。

  • 替換:可以使用均值、中位數(shù)、眾數(shù)替換方法。在替換之前,要分析是人工造成的還是自然造成的。如果是前者,可以替換它。同時(shí)也可用統(tǒng)計(jì)模型預(yù)測異常值,然后替換

  • 分離對待:如果異常值的數(shù)目比較多,在統(tǒng)計(jì)模型中我們應(yīng)該對它們分別處理。一個(gè)處理方法是異常值一組,正常值一組,然后分別建立模型,最后對結(jié)果進(jìn)行合并。

聚類

聚類之間類的度量是分距離和相似系數(shù)來度量的,距離用來度量樣品之間的相似性(K-means聚類,系統(tǒng)聚類中的Q型聚類),相似系數(shù)用來度量變量之間的相似性(系統(tǒng)聚類中的R型聚類)。

最常用的是K-means聚類,適用于大樣本,但需要事先指定分為K個(gè)類。
處理步驟:

1)、從n個(gè)數(shù)據(jù)對象中任意選出k個(gè)對象作為初始的聚類中心
2)、計(jì)算剩余的各個(gè)對象到聚類中心的距離,將它劃分給最近的簇
3)、重新計(jì)算每一簇的平均值(中心對象)
4)、循環(huán)2-3直到每個(gè)聚類不再發(fā)生變化為止。

系統(tǒng)聚類適用于小樣本

分類

有監(jiān)督就是給的樣本都有標(biāo)簽,分類的訓(xùn)練樣本必須有標(biāo)簽,所以分類算法都是有監(jiān)督算法。
監(jiān)督機(jī)器學(xué)習(xí)問題無非就是“minimizeyour error while regularizing your parameters”,也就是在規(guī)則化參數(shù)的同時(shí)最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓(xùn)練數(shù)據(jù),而規(guī)則化參數(shù)是防止我們的模型過分?jǐn)M合我們的訓(xùn)練數(shù)據(jù),提高泛化能力。

1.樸素貝葉斯

1)基礎(chǔ)思想:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此分類項(xiàng)屬于哪個(gè)類別。
2)優(yōu)點(diǎn):
可以和決策樹、神經(jīng)網(wǎng)絡(luò)分類算法相媲美,能運(yùn)用于大型數(shù)據(jù)庫中。
方法簡單,分類準(zhǔn)確率高,速度快,所需估計(jì)的參數(shù)少,對于缺失數(shù)據(jù)不敏感。
3)缺點(diǎn):
假設(shè)一個(gè)屬性對定類的影響?yīng)毩⒂谄渌膶傩灾?,這往往并不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。
需要知道先驗(yàn)概率。

2.決策樹

1)基礎(chǔ)思想:決策樹是一種簡單但廣泛使用的分類器,它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,對未知的數(shù)據(jù)進(jìn)行分類。決策樹的每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試,每個(gè)分枝代表該測試的一個(gè)輸出,而每個(gè)葉結(jié)點(diǎn)存放著一個(gè)類標(biāo)號(hào)。

在決策樹算法中,ID3基于信息增益作為屬性選擇的度量,C4.5基于信息增益比作為屬性選擇的度量,CART基于基尼指數(shù)作為屬性選擇的度量。

2)優(yōu)點(diǎn) :
不需要任何領(lǐng)域知識(shí)或參數(shù)假設(shè)。
適合高維數(shù)據(jù)。
簡單易于理解。
短時(shí)間內(nèi)處理大量數(shù)據(jù),得到可行且效果較好的結(jié)果。
3)缺點(diǎn):
對于各類別樣本數(shù)量不一致數(shù)據(jù),信息增益偏向于那些具有更多數(shù)值的特征。
易于過擬合。
忽略屬性之間的相關(guān)性。

3.支持向量機(jī)

1)基礎(chǔ)思想:支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題,并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類。

2)優(yōu)點(diǎn) :
可以解決小樣本下機(jī)器學(xué)習(xí)的問題。
提高泛化性能。
可以解決文本分類、文字識(shí)別、圖像分類等方面仍受歡迎。
避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題。

3)缺點(diǎn):
缺失數(shù)據(jù)敏感。
內(nèi)存消耗大,難以解釋。

4.K近鄰

1)基礎(chǔ)思想:通過計(jì)算每個(gè)訓(xùn)練樣例到待分類樣品的距離,取和待分類樣品距離最近的K個(gè)訓(xùn)練樣例,K個(gè)樣品中哪個(gè)類別的訓(xùn)練樣例占多數(shù),則待分類樣品就屬于哪個(gè)類別。

2)優(yōu)點(diǎn) :
適用于樣本容量比較大的分類問題

3)缺點(diǎn):
計(jì)算量太大
對于樣本量較小的分類問題,會(huì)產(chǎn)生誤分。

5.邏輯回歸(LR)

1)基礎(chǔ)思想:回歸模型中,y是一個(gè)定型變量,比如y=0或1,logistic方法主要應(yīng)用于研究某些事件發(fā)生的概率。

2)優(yōu)點(diǎn) :
速度快,適合二分類問題。
簡單易于理解,直接看到各個(gè)特征的權(quán)重。
能容易地更新模型吸收新的數(shù)據(jù)。

3)缺點(diǎn):
對數(shù)據(jù)和場景的適應(yīng)能力有局限,不如決策樹算法適應(yīng)性那么強(qiáng)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容