2019-04-23 《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》筆記

17年暑假看過(guò)的《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》發(fā)現(xiàn)挺不錯(cuò)的,最近拿來(lái)繼續(xù)翻一翻,總結(jié)一下數(shù)據(jù)挖掘里經(jīng)典的方法,敲一敲代碼。


簡(jiǎn)述:


第一章的總結(jié)表格




1、K-NN:

優(yōu)點(diǎn):精度高、對(duì)異常值不敏感,無(wú)數(shù)據(jù)輸入假設(shè)

缺點(diǎn):計(jì)算復(fù)雜度高,空間復(fù)雜度高

適用數(shù)據(jù)范圍:數(shù)值型和標(biāo)稱型

(無(wú)監(jiān)督分類方法,初始需要?jiǎng)澐忠恍╊悇e)



2、歸一化數(shù)值?

newValue=(oldValue-min)/(max-min)將任意值轉(zhuǎn)化到0-1之間。

也可以使用normalization



3、決策樹

優(yōu)點(diǎn):計(jì)算復(fù)雜度不高,輸出結(jié)果易于理解,對(duì)中間值的缺失不敏感,可以處理不相關(guān)特征數(shù)據(jù)。(決策樹算法是一種有監(jiān)督分類算法)

缺點(diǎn):可能會(huì)產(chǎn)生過(guò)度匹配問(wèn)題

適用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型。


每個(gè)類的信息值:l(x_i)=-log_2 p(x_i)

原始的信息熵:H(X)=-\sum_{i=1}^n p_i log_2p_i

按第i個(gè)特征分類后,得到的新的分類數(shù)為k,則按第i個(gè)特征分類后的信息熵為:H(\tilde{X} )=-\sum_{i=1}^k p_i log_2 p_i

則信息熵增益為:\Delta (X)=H(X)-H(\tilde{X})

計(jì)算得到最大的信息熵增益的那個(gè)特征,作為本次分類的特征。



4、樸素貝葉斯


5、Logistic回歸


6、支持向量機(jī)


7、利用Adaboost提高分類性能


10、K-means



【重點(diǎn)】11、使用Apriori算法進(jìn)行關(guān)聯(lián)分析

從大規(guī)模數(shù)據(jù)集中尋找物品間的隱含關(guān)系被稱作關(guān)聯(lián)分析或者關(guān)聯(lián)規(guī)則學(xué)習(xí)。

Apriori算法:

優(yōu)點(diǎn):易編碼實(shí)現(xiàn)

缺點(diǎn):在大數(shù)據(jù)集熵可能較慢

適用數(shù)據(jù)類型:數(shù)值型或者標(biāo)稱型數(shù)據(jù)。

關(guān)聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關(guān)系的任務(wù),這些關(guān)系可以有兩種形式:頻繁項(xiàng)集或者關(guān)聯(lián)規(guī)則。頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一塊的物品的集合,關(guān)聯(lián)規(guī)則按時(shí)梁總物品之間可能存在很強(qiáng)的關(guān)系。一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。支持度是針對(duì)項(xiàng)集來(lái)說(shuō)的,因此可以定義一個(gè)最小支持度。可信度或置信度是針對(duì)一條關(guān)聯(lián)規(guī)則來(lái)定義的。支持度和可信度是用來(lái)量化關(guān)聯(lián)分析是否成功的方法。

Apriori(a priori,一個(gè)先驗(yàn))原理是說(shuō)如果某個(gè)項(xiàng)集是頻繁的,那么它的素有子集也是頻繁的。這個(gè)原理轉(zhuǎn)上并沒有什么幫助,但是如果反過(guò)來(lái)看既有用了,也就是說(shuō)如果一個(gè)項(xiàng)集是非頻繁集,那么它的所有超集也是非頻繁集。

Apriori算法是發(fā)現(xiàn)頻繁項(xiàng)集的一種方法,Apriori算法的兩個(gè)輸入?yún)?shù)分別是最小支持度和數(shù)據(jù)集。該算法首先會(huì)生成所有單個(gè)物品的項(xiàng)集列表,接著掃描交易記錄來(lái)查看哪些項(xiàng)集滿足最小支持度要求,哪些不滿意最小支持度要求的集合會(huì)被去掉。然后對(duì)剩下的集合進(jìn)行組合以生成包含兩個(gè)元素的項(xiàng)集。接下來(lái),再重新掃描交易記錄,去掉不滿足最小支持度的項(xiàng)集。該過(guò)程重復(fù)進(jìn)行直到所有項(xiàng)集都被去掉。




【重點(diǎn)】12、使用FP-growth算法來(lái)高效發(fā)現(xiàn)頻繁項(xiàng)集

FP-growth比Apriori算法要快,它基于Apriori構(gòu)建,但是在完成相同任務(wù)時(shí)采用了一些不同的技術(shù),這里的任務(wù)是將數(shù)據(jù)集存儲(chǔ)咋一個(gè)特定的稱作FP樹的結(jié)構(gòu)之后發(fā)現(xiàn)頻繁項(xiàng)集或者頻繁項(xiàng)對(duì)。FP-growth執(zhí)行速度要比Apriori快2個(gè)數(shù)量級(jí)以上。但是該算法不能用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。FP-growth算法只需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行兩次掃描。

優(yōu)點(diǎn):比Apriori快

缺點(diǎn):實(shí)現(xiàn)比較困難,在某些數(shù)據(jù)集上性能會(huì)下降

適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容