飘花秋霞久久,久久亚洲韩日精品

異常值

異常值就是偏離樣本整體數(shù)據(jù)的值，分為單變量和多變量異常值。

多變量異常值即出現(xiàn)在n維空間上的異常值。多變量異常值是某幾個(gè)觀測值在單變量上看是正常的，但是放到多維變量上就可能是異常的。

例如：

100cm的身高和100kg的體重分別在身高和體重的維度上看，貌似沒有什么問題。但是如果放在身高和體重的二維上看就發(fā)現(xiàn)這個(gè)（100cm，100kg）的觀測值不正常了。

單變量異常值可以通過箱型圖來觀察，二維變量的異常值可以通過散點(diǎn)圖來觀察。

造成異常值的原因有：

數(shù)據(jù)輸入錯(cuò)誤
測量誤差
實(shí)驗(yàn)誤差
故意離群
數(shù)據(jù)處理錯(cuò)誤
自然異常值

異常值會(huì)對數(shù)據(jù)造成哪些影響？
異常值增加了誤差方差，降低了統(tǒng)計(jì)檢驗(yàn)的效果，同時(shí)如果異常值是非隨機(jī)分布的，它們可能會(huì)減弱樣本的正態(tài)性。

如何去除異常值？

刪除：如果異常值是由于數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)處理錯(cuò)誤或異常值數(shù)目很少，我們可以刪除它們
數(shù)據(jù)轉(zhuǎn)換或聚類：例如對數(shù)據(jù)取對數(shù)可以減少極端值的變化。我們也可以用決策樹直接處理帶有異常值的數(shù)據(jù)（決策樹基本不會(huì)受到異常值和缺失值的影響），或是對不同的觀測值分配權(quán)重。
替換：可以使用均值、中位數(shù)、眾數(shù)替換方法。在替換之前，要分析是人工造成的還是自然造成的。如果是前者，可以替換它。同時(shí)也可用統(tǒng)計(jì)模型預(yù)測異常值，然后替換
分離對待：如果異常值的數(shù)目比較多，在統(tǒng)計(jì)模型中我們應(yīng)該對它們分別處理。一個(gè)處理方法是異常值一組，正常值一組，然后分別建立模型，最后對結(jié)果進(jìn)行合并。

聚類

聚類之間類的度量是分距離和相似系數(shù)來度量的，距離用來度量樣品之間的相似性（K-means聚類，系統(tǒng)聚類中的Q型聚類），相似系數(shù)用來度量變量之間的相似性（系統(tǒng)聚類中的R型聚類）。

最常用的是K-means聚類，適用于大樣本，但需要事先指定分為K個(gè)類。
處理步驟：

1）、從n個(gè)數(shù)據(jù)對象中任意選出k個(gè)對象作為初始的聚類中心
2）、計(jì)算剩余的各個(gè)對象到聚類中心的距離，將它劃分給最近的簇
3）、重新計(jì)算每一簇的平均值（中心對象）
4）、循環(huán)2-3直到每個(gè)聚類不再發(fā)生變化為止。

系統(tǒng)聚類適用于小樣本

分類

有監(jiān)督就是給的樣本都有標(biāo)簽，分類的訓(xùn)練樣本必須有標(biāo)簽，所以分類算法都是有監(jiān)督算法。
監(jiān)督機(jī)器學(xué)習(xí)問題無非就是“minimizeyour error while regularizing your parameters”，也就是在規(guī)則化參數(shù)的同時(shí)最小化誤差。最小化誤差是為了讓我們的模型擬合我們的訓(xùn)練數(shù)據(jù)，而規(guī)則化參數(shù)是防止我們的模型過分?jǐn)M合我們的訓(xùn)練數(shù)據(jù)，提高泛化能力。

1.樸素貝葉斯

1）基礎(chǔ)思想：對于給出的待分類項(xiàng)，求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率，哪個(gè)最大，就認(rèn)為此分類項(xiàng)屬于哪個(gè)類別。
2）優(yōu)點(diǎn)：
可以和決策樹、神經(jīng)網(wǎng)絡(luò)分類算法相媲美，能運(yùn)用于大型數(shù)據(jù)庫中。
方法簡單，分類準(zhǔn)確率高，速度快，所需估計(jì)的參數(shù)少，對于缺失數(shù)據(jù)不敏感。
3）缺點(diǎn)：
假設(shè)一個(gè)屬性對定類的影響?yīng)毩⒂谄渌膶傩灾?，這往往并不成立。（喜歡吃番茄、雞蛋，卻不喜歡吃番茄炒蛋）。
需要知道先驗(yàn)概率。

2.決策樹

1）基礎(chǔ)思想：決策樹是一種簡單但廣泛使用的分類器，它通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹，對未知的數(shù)據(jù)進(jìn)行分類。決策樹的每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測試，每個(gè)分枝代表該測試的一個(gè)輸出，而每個(gè)葉結(jié)點(diǎn)存放著一個(gè)類標(biāo)號(hào)。

在決策樹算法中，ID3基于信息增益作為屬性選擇的度量，C4.5基于信息增益比作為屬性選擇的度量，CART基于基尼指數(shù)作為屬性選擇的度量。

2）優(yōu)點(diǎn) ：
不需要任何領(lǐng)域知識(shí)或參數(shù)假設(shè)。
適合高維數(shù)據(jù)。
簡單易于理解。
短時(shí)間內(nèi)處理大量數(shù)據(jù)，得到可行且效果較好的結(jié)果。
3）缺點(diǎn)：
對于各類別樣本數(shù)量不一致數(shù)據(jù)，信息增益偏向于那些具有更多數(shù)值的特征。
易于過擬合。
忽略屬性之間的相關(guān)性。

3.支持向量機(jī)

1）基礎(chǔ)思想：支持向量機(jī)把分類問題轉(zhuǎn)化為尋找分類平面的問題，并通過最大化分類邊界點(diǎn)距離分類平面的距離來實(shí)現(xiàn)分類。

2）優(yōu)點(diǎn) ：
可以解決小樣本下機(jī)器學(xué)習(xí)的問題。
提高泛化性能。
可以解決文本分類、文字識(shí)別、圖像分類等方面仍受歡迎。
避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題。

3）缺點(diǎn)：
缺失數(shù)據(jù)敏感。
內(nèi)存消耗大，難以解釋。

4.K近鄰

1）基礎(chǔ)思想：通過計(jì)算每個(gè)訓(xùn)練樣例到待分類樣品的距離，取和待分類樣品距離最近的K個(gè)訓(xùn)練樣例，K個(gè)樣品中哪個(gè)類別的訓(xùn)練樣例占多數(shù)，則待分類樣品就屬于哪個(gè)類別。

2）優(yōu)點(diǎn) ：
適用于樣本容量比較大的分類問題

3）缺點(diǎn)：
計(jì)算量太大
對于樣本量較小的分類問題，會(huì)產(chǎn)生誤分。

5.邏輯回歸（LR）

1）基礎(chǔ)思想：回歸模型中，y是一個(gè)定型變量，比如y=0或1，logistic方法主要應(yīng)用于研究某些事件發(fā)生的概率。

2）優(yōu)點(diǎn) ：
速度快，適合二分類問題。
簡單易于理解，直接看到各個(gè)特征的權(quán)重。
能容易地更新模型吸收新的數(shù)據(jù)。

3）缺點(diǎn)：
對數(shù)據(jù)和場景的適應(yīng)能力有局限，不如決策樹算法適應(yīng)性那么強(qiáng)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

學(xué)習(xí)數(shù)據(jù)分析過程中需要掌握的一些概念

學(xué)習(xí)數(shù)據(jù)分析過程中需要掌握的一些概念

異常值

聚類

分類

1.樸素貝葉斯

2.決策樹

3.支持向量機(jī)

4.K近鄰

5.邏輯回歸（LR）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

學(xué)習(xí)數(shù)據(jù)分析過程中需要掌握的一些概念

異常值

聚類

分類

1.樸素貝葉斯

2.決策樹

3.支持向量機(jī)

4.K近鄰

5.邏輯回歸（LR）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av