国产精品久久久999,久久久久久久久流水

17年暑假看過(guò)的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》發(fā)現(xiàn)挺不錯(cuò)的，最近拿來(lái)繼續(xù)翻一翻，總結(jié)一下數(shù)據(jù)挖掘里經(jīng)典的方法，敲一敲代碼。

簡(jiǎn)述：

第一章的總結(jié)表格

1、K-NN：

優(yōu)點(diǎn)：精度高、對(duì)異常值不敏感，無(wú)數(shù)據(jù)輸入假設(shè)

缺點(diǎn)：計(jì)算復(fù)雜度高，空間復(fù)雜度高

適用數(shù)據(jù)范圍：數(shù)值型和標(biāo)稱型

（無(wú)監(jiān)督分類方法，初始需要?jiǎng)澐忠恍╊悇e）

2、歸一化數(shù)值?

newValue=（oldValue-min）/（max-min）將任意值轉(zhuǎn)化到0-1之間。

也可以使用normalization

3、決策樹

優(yōu)點(diǎn)：計(jì)算復(fù)雜度不高，輸出結(jié)果易于理解，對(duì)中間值的缺失不敏感，可以處理不相關(guān)特征數(shù)據(jù)。（決策樹算法是一種有監(jiān)督分類算法）

缺點(diǎn)：可能會(huì)產(chǎn)生過(guò)度匹配問(wèn)題

適用數(shù)據(jù)類型：數(shù)值型和標(biāo)稱型。

每個(gè)類的信息值： $l(x_i)=-log_2 p(x_i)$

原始的信息熵： $H(X)=-\sum_{i=1}^n p_i log_2p_i$

按第i個(gè)特征分類后，得到的新的分類數(shù)為k，則按第i個(gè)特征分類后的信息熵為： $H(\tilde{X} )=-\sum_{i=1}^k p_i log_2 p_i$

則信息熵增益為： $\Delta (X)=H(X)-H(\tilde{X})$

計(jì)算得到最大的信息熵增益的那個(gè)特征，作為本次分類的特征。

4、樸素貝葉斯

5、Logistic回歸

6、支持向量機(jī)

7、利用Adaboost提高分類性能

10、K-means

【重點(diǎn)】11、使用Apriori算法進(jìn)行關(guān)聯(lián)分析

從大規(guī)模數(shù)據(jù)集中尋找物品間的隱含關(guān)系被稱作關(guān)聯(lián)分析或者關(guān)聯(lián)規(guī)則學(xué)習(xí)。

Apriori算法：

優(yōu)點(diǎn)：易編碼實(shí)現(xiàn)

缺點(diǎn)：在大數(shù)據(jù)集熵可能較慢

適用數(shù)據(jù)類型：數(shù)值型或者標(biāo)稱型數(shù)據(jù)。

關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù)，這些關(guān)系可以有兩種形式：頻繁項(xiàng)集或者關(guān)聯(lián)規(guī)則。頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一塊的物品的集合，關(guān)聯(lián)規(guī)則按時(shí)梁總物品之間可能存在很強(qiáng)的關(guān)系。一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。支持度是針對(duì)項(xiàng)集來(lái)說(shuō)的，因此可以定義一個(gè)最小支持度。可信度或置信度是針對(duì)一條關(guān)聯(lián)規(guī)則來(lái)定義的。支持度和可信度是用來(lái)量化關(guān)聯(lián)分析是否成功的方法。

Apriori（a priori，一個(gè)先驗(yàn)）原理是說(shuō)如果某個(gè)項(xiàng)集是頻繁的，那么它的素有子集也是頻繁的。這個(gè)原理轉(zhuǎn)上并沒有什么幫助，但是如果反過(guò)來(lái)看既有用了，也就是說(shuō)如果一個(gè)項(xiàng)集是非頻繁集，那么它的所有超集也是非頻繁集。

Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法，Apriori算法的兩個(gè)輸入?yún)?shù)分別是最小支持度和數(shù)據(jù)集。該算法首先會(huì)生成所有單個(gè)物品的項(xiàng)集列表，接著掃描交易記錄來(lái)查看哪些項(xiàng)集滿足最小支持度要求，哪些不滿意最小支持度要求的集合會(huì)被去掉。然后對(duì)剩下的集合進(jìn)行組合以生成包含兩個(gè)元素的項(xiàng)集。接下來(lái)，再重新掃描交易記錄，去掉不滿足最小支持度的項(xiàng)集。該過(guò)程重復(fù)進(jìn)行直到所有項(xiàng)集都被去掉。

【重點(diǎn)】12、使用FP-growth算法來(lái)高效發(fā)現(xiàn)頻繁項(xiàng)集

FP-growth比Apriori算法要快，它基于Apriori構(gòu)建，但是在完成相同任務(wù)時(shí)采用了一些不同的技術(shù)，這里的任務(wù)是將數(shù)據(jù)集存儲(chǔ)咋一個(gè)特定的稱作FP樹的結(jié)構(gòu)之后發(fā)現(xiàn)頻繁項(xiàng)集或者頻繁項(xiàng)對(duì)。FP-growth執(zhí)行速度要比Apriori快2個(gè)數(shù)量級(jí)以上。但是該算法不能用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。FP-growth算法只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次掃描。

優(yōu)點(diǎn)：比Apriori快

缺點(diǎn)：實(shí)現(xiàn)比較困難，在某些數(shù)據(jù)集上性能會(huì)下降

適用數(shù)據(jù)類型：標(biāo)稱型數(shù)據(jù)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2019-04-23 《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》筆記

2019-04-23 《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2019-04-23 《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av