大數(shù)據(jù)分析總結(jié)

第一章 緒論

數(shù)據(jù):網(wǎng)絡(luò)空間的任何事物。

結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與無(wú)結(jié)構(gòu)數(shù)據(jù):后兩者是研究的主要內(nèi)容。

大數(shù)據(jù)定義:狹義指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,廣義上指基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。

數(shù)據(jù)挖掘是統(tǒng)計(jì)模型的構(gòu)建過(guò)程。

人工智能:究重心在機(jī)器學(xué)習(xí)和推理機(jī)制。算法的理論性強(qiáng),追求理論的正確性。

數(shù)據(jù)挖掘: 強(qiáng)調(diào)算法的實(shí)用性,不關(guān)心理論問(wèn)題的解決,而是關(guān)心實(shí)際問(wèn)題的解決

第二章:數(shù)據(jù)與處理

數(shù)據(jù)集的類型:記錄數(shù)據(jù),圖和網(wǎng)絡(luò)數(shù)據(jù),有序數(shù)據(jù),多媒體數(shù)據(jù)。

數(shù)據(jù)預(yù)處理任務(wù):是為了提高數(shù)據(jù)挖掘效率與質(zhì)量進(jìn)行的預(yù)處理工作,包括數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)規(guī)約,數(shù)據(jù)離散化等。

處理噪聲數(shù)據(jù)的方法:分箱---用臨近數(shù)據(jù)進(jìn)行光滑,如箱均值,中位數(shù),箱邊界;回歸---將缺失值通過(guò)回歸函數(shù)進(jìn)行預(yù)測(cè)。

處理離群點(diǎn)數(shù)據(jù):通過(guò)聚類進(jìn)行檢測(cè),數(shù)據(jù)光滑處理,通過(guò)外部手段糾正等,有時(shí)根據(jù)具體情況不需要處理。

數(shù)據(jù)集成:合并來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。

相關(guān)系數(shù):線性相關(guān)程度

圖片: https://uploader.shimo.im/f/KCTf39hcJLM9It7m.png

卡方檢驗(yàn)(相關(guān)分析):

圖片: https://uploader.shimo.im/f/TboWeCcY5fgfg9Xa.png

數(shù)據(jù)變換:數(shù)據(jù)的光滑、聚集、泛5化(離散化與分層)、規(guī)范化、特征構(gòu)造等。

第三章 鏈接分析

PageRank算法(網(wǎng)頁(yè)的重要程度僅由指向它的網(wǎng)頁(yè)決定):

轉(zhuǎn)移矩陣是個(gè)n*n列的方陣,用來(lái)描述隨機(jī)沖浪者的下一步訪問(wèn)行為

? 如果網(wǎng)頁(yè)j有k條出鏈,那么對(duì)每條出邊鏈向的網(wǎng)頁(yè)i,m_ij=1/k

? 其他網(wǎng)頁(yè)的i對(duì)應(yīng)的矩陣元素mij=0

隨機(jī)沖浪的過(guò)程:

基本算法思想

隨機(jī)沖浪者位置的概率分布可以用一個(gè)n維列向量表示,其中分量j代表位于網(wǎng)頁(yè)j的概率。該概率即PageRank值,初始n個(gè)網(wǎng)頁(yè)的初始概率都為V_0。

Web的轉(zhuǎn)移矩陣為M。第一步之后,沖浪者的概率分布向量是Mv0,第二步為M^2v0,i步后為M^iv_0.

收斂前提條件:1.圖為強(qiáng)連通圖 2.不存在終止節(jié)點(diǎn)

算法終止條件:M^(i+1)v_0 = M^iv_0 ----迭代前后結(jié)果差異足夠小,一般50~75次即可收斂

算法優(yōu)化

處理終止點(diǎn)問(wèn)題:

將其行列從圖中剔除,若產(chǎn)生新的終止點(diǎn),則迭代刪除,直至無(wú)終止點(diǎn)。

修改隨機(jī)沖浪者在Web上的沖浪過(guò)程

終止點(diǎn)的PageRank值:

對(duì)刪除終止點(diǎn)之后的圖G,計(jì)算出各節(jié)點(diǎn)的PageRank值

恢復(fù)到原圖,但仍然保留G中各節(jié)點(diǎn)的PageRank值

對(duì)不在G中的終止點(diǎn)及偽終止點(diǎn):

若所有指向它的網(wǎng)頁(yè)P(yáng)ageRank都已算出,則它的PageRank=∑這些網(wǎng)頁(yè)的PageRank/出鏈數(shù),否則等待其他終止點(diǎn)網(wǎng)頁(yè)計(jì)算PageRank。即按照終止點(diǎn)刪除順序的逆序進(jìn)行節(jié)點(diǎn)的PageRank計(jì)算。

采集器陷阱及“抽稅法”:采集器陷阱指的是一系列節(jié)點(diǎn),它們可能互相鏈接,但是卻不會(huì)鏈接集合以外的節(jié)點(diǎn),即沒(méi)有出鏈指向集合之外。當(dāng)采集器(爬蟲(chóng)程序)一旦進(jìn)入采集器陷阱,將無(wú)法跳出。

solution:抽稅機(jī)制--進(jìn)行隨機(jī)跳轉(zhuǎn):允許隨機(jī)沖浪者以一個(gè)較小的概率隨機(jī)跳轉(zhuǎn)到一個(gè)隨機(jī)網(wǎng)頁(yè),而不一定沿著當(dāng)前網(wǎng)頁(yè)的出鏈前進(jìn)。

圖片: https://uploader.shimo.im/f/jHWyyeqxeqkCT1f5.png

其中,β是選定的常數(shù),通常取值在0.8到0.9之間。e是一個(gè)所有分量都為1、維數(shù)為n的向量,n是Web圖中所有節(jié)點(diǎn)的數(shù)目。

PageRank優(yōu)點(diǎn):由于M的稀疏性計(jì)算快速,且避免了磁盤(pán)的大量使用??梢詫⑾∈杈仃噳嚎s表示(方法如下,轉(zhuǎn)移矩陣是特殊的稀疏矩陣)

圖片: https://uploader.shimo.im/f/ydit1i6wJrgo4lx4.png

圖片: https://uploader.shimo.im/f/gjdVDmaSf80NM8bC.png

面向主題的Page Rank

有偏的隨機(jī)游走模型:識(shí)別特定主題的網(wǎng)頁(yè)集合,作為隨機(jī)跳轉(zhuǎn)集合的范圍,只有該集合中的網(wǎng)頁(yè)才能共享抽稅部分所占的PageRank值。

假定整數(shù)集合S由已知屬于某個(gè)主題的網(wǎng)頁(yè),e_s是一個(gè)向量,若其分量對(duì)應(yīng)的網(wǎng)頁(yè)屬于S,則該分量置為1,否則為0,面向主題S的PageRank值是圖片: https://uploader.shimo.im/f/th4Ni0EDHxkUACgA.png的極限。其中,︱S︱是集合S的大小

鏈接作弊及應(yīng)對(duì)

人工增加某個(gè)特定網(wǎng)頁(yè)P(yáng)ageRank的方法稱為鏈接作弊,由此得到的信息統(tǒng)稱為垃圾

不可達(dá)網(wǎng)頁(yè)(Inaccessible pages),作弊者無(wú)法影響的網(wǎng)頁(yè),Web中的絕大多數(shù)網(wǎng)頁(yè)

可達(dá)網(wǎng)頁(yè)(Accessible pages),不受作弊者控制,但可以影響的網(wǎng)頁(yè)

如評(píng)論網(wǎng)頁(yè),作弊者可以在其上粘貼指向自有網(wǎng)頁(yè)的鏈接

自有網(wǎng)頁(yè)(Own pages),被作弊者完全控制的網(wǎng)頁(yè)

可能跨越多個(gè)域名

垃圾農(nóng)場(chǎng):目標(biāo)是最大化目標(biāo)網(wǎng)頁(yè)的PageRank值,技術(shù):在可達(dá)網(wǎng)頁(yè)上盡可能多的構(gòu)造指向目標(biāo)網(wǎng)頁(yè)的鏈接、構(gòu)造“鏈接農(nóng)場(chǎng)”來(lái)形成PageRank值的倍增效應(yīng)

垃圾農(nóng)場(chǎng)放大效果計(jì)算:令X為所有可達(dá)網(wǎng)頁(yè)為垃圾農(nóng)場(chǎng)提供的PageRank總量,m為自由網(wǎng)頁(yè)數(shù)量,則目標(biāo)網(wǎng)頁(yè)P(yáng)ageRank值y為圖片: https://uploader.shimo.im/f/fhCCyQHyzfkF5wtE.png

Solution:

Trust Rank和垃圾質(zhì)量: 思想是可靠網(wǎng)頁(yè)不太可能指向垃圾網(wǎng)頁(yè)。

垃圾質(zhì)量=(PageRank-TrustRank)/PageRank, 越大越可能是垃圾網(wǎng)頁(yè),負(fù)數(shù)或小正數(shù)可能是正常網(wǎng)頁(yè)

Timed-PageRank:? ? PageRank算法+時(shí)效性,引入時(shí)間函數(shù)f(t)∈[0,1], t為距上次更新的時(shí)間,表示沖浪者沿所在網(wǎng)頁(yè)的鏈接繼續(xù)沖浪的概率,1-f(t) 為跳轉(zhuǎn)到隨機(jī)網(wǎng)頁(yè)的概率。

HITS算法(網(wǎng)頁(yè)的重要程度由與它關(guān)聯(lián)的所有網(wǎng)頁(yè)共同決定,包含出鏈和入鏈)

權(quán)威頁(yè)(authority):某些網(wǎng)頁(yè)提供了有關(guān)某個(gè)主題的信息,因此它們具有非常重要的價(jià)值,這些網(wǎng)頁(yè)被稱為權(quán)威頁(yè)? 例如:課程主頁(yè)、汽車(chē)制造商的網(wǎng)頁(yè)等

權(quán)威度(a=authority):該網(wǎng)頁(yè)充當(dāng)權(quán)威頁(yè)的良好程度,通過(guò)累加所有鏈入網(wǎng)頁(yè)的導(dǎo)航度來(lái)估算當(dāng)前頁(yè)的權(quán)威度。

導(dǎo)航頁(yè)(h=hub):鏈向權(quán)威頁(yè)的網(wǎng)頁(yè),它們雖然并不提供有關(guān)任何主題的信息,但是卻可以給出找到關(guān)于該主題的網(wǎng)頁(yè)的信息,因此它們也具有重要價(jià)值? 例如:院系門(mén)戶網(wǎng)頁(yè)、汽車(chē)制造商列表等

導(dǎo)航度:該網(wǎng)頁(yè)充當(dāng)導(dǎo)航頁(yè)的良好程度,通過(guò)累加所有鏈出網(wǎng)頁(yè)的權(quán)威度來(lái)估算當(dāng)前頁(yè)的導(dǎo)航度

Web鏈接矩陣L:若有n個(gè)網(wǎng)頁(yè),那么L就是一個(gè)n*n的矩陣,如果網(wǎng)頁(yè)i到j(luò)存在一個(gè)鏈接,則Lij=1,否則Lij=0

導(dǎo)航度 h = λLa ,權(quán)威度a = μL^Th ,其中λ和μ是代表歸一化因子的常數(shù),兩個(gè)式子通過(guò)迭代進(jìn)行計(jì)算,并將每次結(jié)果進(jìn)行最大分量歸一化,直至收斂。

第四章 發(fā)現(xiàn)相似項(xiàng)

近鄰搜索的應(yīng)用(尋找相似的集合)

如檢測(cè)抄襲文檔,Web鏡像檢測(cè)

集合的Jaccard相似度圖片: https://uploader.shimo.im/f/APHprmWnxO0JYd4k.png? 計(jì)算時(shí)注意包和集合的區(qū)分? https://www.cnblogs.com/chenxiangzhen/p/10648503.html? 鏈接為各種距離度量

如果數(shù)據(jù)存在“分?jǐn)?shù)膨脹“問(wèn)題,就使用皮爾遜相關(guān)系數(shù)

如果數(shù)據(jù)比較密集,變量之間基本都存在共有值,且這些距離數(shù)據(jù)都是非常重要的,那就使用歐幾里得或者曼哈頓距離

如果數(shù)據(jù)是稀疏的,就使用余弦相似度

TF.IDF---- 詞項(xiàng)頻率乘以逆文檔頻率

-是對(duì)給定詞語(yǔ)在少數(shù)文檔中反復(fù)出現(xiàn)程度的形式化度量,正相關(guān)于某詞在該篇文檔的出現(xiàn)頻率 和 該詞在其他文檔的未出現(xiàn)次數(shù)。

圖片: https://uploader.shimo.im/f/PUQwGlgfwd4AtNQ5.png

K-shingling 算法 (將文檔看成一個(gè)字符串,K表示劃分粒度,可以是k長(zhǎng)的子串,也可以是k個(gè)單詞 等,將文檔都用一個(gè)或多個(gè)k-Shingle集合表示)

k的選擇:5-9.太小會(huì)造成文檔相似性太高,太大也會(huì)造成不準(zhǔn)確。

shingle的壓縮處理:可以將k長(zhǎng)字符串通過(guò)哈希映射到定長(zhǎng)(如四字節(jié))桶編號(hào),將桶編號(hào)作為最終的shingle,文檔即被表示成桶編號(hào)的集合。

將9-shingles映射到4字節(jié)整數(shù)進(jìn)行處理,與直接使用4-shingles來(lái)表示文檔的區(qū)別?

答:從適用范圍看,4字節(jié)的桶編號(hào)范圍為[0,2^32-1], 9shingles映射到四字節(jié)桶編號(hào)能夠比較充分地保留較長(zhǎng)shingles的差異性,即能夠較好地進(jìn)行長(zhǎng)文本相似性對(duì)比,而4-shingles更適合短文本的差異性比較。但從存儲(chǔ)角度來(lái)看,由于桶編號(hào)是4字節(jié),單篇文本用第一種方法存儲(chǔ)shingles約需要四倍文檔大小的存儲(chǔ)空間,與4shingles的存儲(chǔ)大約相同。

基于詞的shingle

最小哈希Minhashing:映射到四個(gè)字節(jié)的shingle集合約為文檔4倍大小,還是很大。當(dāng)文檔數(shù)增大時(shí)不能直接裝入內(nèi)存。該技術(shù)用較小的“簽名”表示shingle集合,可以較好地估計(jì)集合相似度。

集合構(gòu)造簽名包含大量計(jì)算,每次計(jì)算是特征矩陣的minhashing過(guò)程:– 首先選擇行號(hào)的一個(gè)排列進(jìn)行行變換,每列的最小哈希值為變換后的1所在行的最小行號(hào)。

經(jīng)過(guò)隨機(jī)行打亂后,兩個(gè)集合的最小哈希值相等的概率等于這兩個(gè)集合的Jaccard相似度

最小哈希簽名:對(duì)于表示集合S的特征矩陣M,隨機(jī)選擇n(幾百個(gè))個(gè)排列轉(zhuǎn)換用于行排列,則每列對(duì)應(yīng)有各自的n個(gè)最小哈希值,每列的這些值作為該列的最小哈希簽名向量,這些向量構(gòu)成了一個(gè)n行*M的列數(shù) 列的簽名矩陣,空間更小。

計(jì)算過(guò)程:顯式的排列轉(zhuǎn)換不適用大規(guī)模矩陣,通過(guò)哈希函數(shù)模擬排列的效果。將行號(hào)映射到與行數(shù)目大致相等數(shù)量的桶中,數(shù)量很大且哈希結(jié)果沖突不頻繁時(shí),可以假設(shè)r行放在H(r)位置。這樣選擇n個(gè)哈希函數(shù)模擬行排列。

具體算法過(guò)程參考ppt,簽名向量的相似度一定程度上能反映特征向量的相似度。

局部敏感哈希算法(LSH)或近鄰搜索:只關(guān)注相似的文檔,不用分析所有文檔時(shí)使用。

算法思路:使用函數(shù)f(x,y)判斷文檔相似度,將哈希矩陣中每一列哈希映射到桶中,對(duì)每個(gè)桶中文檔進(jìn)行相似判斷。進(jìn)行多次哈希操作,盡可能使只有最相似的列在一個(gè)桶,將桶中集合作為候選對(duì)進(jìn)行相似判斷。目標(biāo)是盡可能減小偽正例和偽反例

計(jì)算過(guò)程:

M劃分為b個(gè)行條,每個(gè)r行

行條中每一列哈希映射到k個(gè)桶中(k足夠大)

候選列對(duì)為至少在一個(gè)行條中被映射到同一桶中的列對(duì)

調(diào)整b和r,獲得盡可能多的相似對(duì)與盡可能少的非相似對(duì)

第五章 頻繁模式挖掘、關(guān)聯(lián)和相關(guān)性

頻繁模式:數(shù)據(jù)集中頻繁出現(xiàn)的模式。

k項(xiàng)集:包含k個(gè)項(xiàng)的集合。

項(xiàng)的支持頻度(支持度計(jì)數(shù)或計(jì)數(shù)),項(xiàng)的相對(duì)支持度(支持度/全體事務(wù))

頻繁項(xiàng)集:項(xiàng)集支持度滿足預(yù)定義的最小支持度閾值

圖片: https://uploader.shimo.im/f/BkbRUd2ClasT4HEV.png

關(guān)聯(lián)規(guī)則挖掘:找出頻繁項(xiàng)集(滿足最小支持度),產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則(同時(shí)滿足最小置信度)

X在D中是閉的:不存在真超項(xiàng)集Y,使Y與X在D中具有相同的支持度計(jì)數(shù)

閉頻繁項(xiàng)集:X是閉的和頻繁的

極大頻繁項(xiàng)集:X在D中頻繁,且不存在超項(xiàng)集Y且Y在D中也是頻繁的。稱X是極大頻繁項(xiàng)集。

圖片: https://uploader.shimo.im/f/Hvjc16cxMYQiXlSM.png

頻繁項(xiàng)集的挖掘策略:

減少候選集的數(shù)量(減小M)(剪枝策略)

減少事務(wù)的數(shù)量(減小N)(不包含任何k項(xiàng)集的事務(wù)在候選k+1時(shí)刪除)

減少比較的數(shù)量(減小NM)

先驗(yàn)性質(zhì):頻繁項(xiàng)集的所有非空子集也一定頻繁,即非頻繁項(xiàng)的所有超集都是非頻繁的。

Apriori算法(思想):

連接步:通過(guò)將Lk與自身連接,產(chǎn)生候選(k+1)項(xiàng)集Ck+1

剪枝:掃描數(shù)據(jù)庫(kù),確定Ck+1中每個(gè)項(xiàng)的計(jì)數(shù),從而確定Lk+1

當(dāng)沒(méi)有頻繁項(xiàng)集L或候選項(xiàng)集產(chǎn)生時(shí)算法終止。

圖片: https://uploader.shimo.im/f/51D61kUzgKcbUJBI.png

圖片: https://uploader.shimo.im/f/8IrWuOtOa8kGWhyE.png

圖片: https://uploader.shimo.im/f/2JgmCbCQNHExTJRD.png

項(xiàng)的表示優(yōu)化:

將字符串項(xiàng)哈希轉(zhuǎn)化為整數(shù)

三角矩陣:用一位數(shù)組存儲(chǔ)作為二項(xiàng)集的映射(ij映射為數(shù)組下標(biāo))

用三元組存儲(chǔ)項(xiàng)對(duì)

2-項(xiàng)集計(jì)數(shù)內(nèi)存優(yōu)化:無(wú)法在內(nèi)存中對(duì)所有項(xiàng)集計(jì)數(shù),減少需要計(jì)數(shù)的2-項(xiàng)集數(shù)目,掃描兩遍

第一遍掃描:建立項(xiàng)名與整數(shù)映射表,建立計(jì)數(shù)數(shù)組,下標(biāo)為對(duì)應(yīng)的項(xiàng)集映射整數(shù),掃描并計(jì)數(shù)。

第一遍掃描后:檢查項(xiàng)的計(jì)數(shù)值,確定頻繁1項(xiàng)集,將其按照數(shù)量m進(jìn)行1-m編號(hào),在計(jì)數(shù)數(shù)組中將對(duì)應(yīng)值改為編號(hào)。

第二遍掃描:用三角矩陣法,空間為2m^2,也可用三元組方法

PCY算法:第一次掃描時(shí),將每個(gè)事務(wù)產(chǎn)生的二項(xiàng)集散列到不同桶中,并增加桶計(jì)數(shù),掃描結(jié)束后用bitmap來(lái)記錄哪個(gè)是頻繁桶,生成候選項(xiàng)集選擇時(shí),留下在頻繁桶中的候選集,不在候選集的則刪除。

效果: 如果大部分桶都是非頻繁的,那么第二次掃描需要計(jì)數(shù)的項(xiàng)對(duì)數(shù)目會(huì)顯著降低。與Apriori相比,項(xiàng)對(duì)的表示只能采用三元組法,只減少了2-項(xiàng)集的計(jì)算,如果不能減少至少2/3的頻繁對(duì),則PCY并不比Apriori算法更好。

多階段算法:第一遍掃描同SPY,在第二次掃描時(shí)用里一個(gè)哈希函數(shù)建立第二張哈希表,第二張哈希表與第一張桶數(shù)目接近,進(jìn)行第二次掃描時(shí)進(jìn)行哈希的項(xiàng)對(duì){i,j}:i,j都是頻繁項(xiàng),且{i,j}

在第一遍掃描中被哈希到一個(gè)頻繁桶。兩個(gè)bitmap。

候選二項(xiàng)集的條件:i和j都是頻繁項(xiàng),{i,j}哈希到第一張表的某個(gè)頻繁桶中,同時(shí)也哈希到第二張表的某個(gè)頻繁桶中

效果:第二張哈希表的計(jì)數(shù)值之和,顯著低于第一張哈希表的計(jì)數(shù)值之和,期望第二張表中頻繁桶的數(shù)目遠(yuǎn)低于第一張表。

多哈希算法:在第一次掃描時(shí)同時(shí)使用兩個(gè)哈希函數(shù)和兩張獨(dú)立的哈希表,就得到了多階段掃描的好處。

風(fēng)險(xiǎn):使用兩張哈希表,但每張表的桶只有PCY的一半。

期望:只要PCY中每個(gè)桶的平均計(jì)數(shù)值遠(yuǎn)小于支持度閾值,就可以使用兩張一半大小的表并期望大部分桶都是非頻繁的。

Apriori的進(jìn)一步改進(jìn):

較少比較次數(shù),不再將每個(gè)事務(wù)與每個(gè)候選項(xiàng)集進(jìn)行比較,而是將事務(wù)與存在哈希桶中的候選項(xiàng)進(jìn)行比較

構(gòu)造哈希樹(shù),可以明顯減少比較次數(shù)

頻繁模式增長(zhǎng):

? 將代表頻繁項(xiàng)集的數(shù)據(jù)壓縮到一棵頻繁模式樹(shù)(FP-樹(shù)),? 建立頻繁模式樹(shù)之后,采用遞歸的分治方法直接挖掘頻繁項(xiàng)集

方法:掃描第一次并計(jì)數(shù),由長(zhǎng)度為1的頻繁模式開(kāi)始,構(gòu)造條件模式基并排序。

掃描第二次,將事務(wù)也同序排序并構(gòu)建FP樹(shù)。。。。。

保持了用于頻繁模式挖掘的全部信息,沒(méi)有打斷任何事務(wù)中的長(zhǎng)模式。簡(jiǎn)潔性。

垂直數(shù)據(jù)格式:? 確定k-項(xiàng)集的支持度:對(duì)它的任意(k-1)子集求交集

圖片: https://uploader.shimo.im/f/BLUHHjw79O81Jm9h.png圖片: https://uploader.shimo.im/f/BQCT63MEf4QTWMzg.png

優(yōu)點(diǎn):計(jì)算快,無(wú)需掃描數(shù)據(jù)庫(kù)

缺點(diǎn):不適合大規(guī)模TID列表

圖片: https://uploader.shimo.im/f/9UfE6ImUgekTg1o5.png

有限掃描算法:只選擇購(gòu)物籃的隨機(jī)子集看做數(shù)據(jù)集。

偽正例:再做一次掃描去除。

偽反例:放松支持度閾值減小數(shù)量。

SON算法:兩次掃描去掉所有偽正例和偽反例。

方法:先分塊,計(jì)算后將各塊的頻繁項(xiàng)集合并,第二遍掃描確定最終的頻繁項(xiàng)集。

產(chǎn)生關(guān)聯(lián)規(guī)則:? 給定頻繁項(xiàng)集L,找出L的所有非空子集f(f?L) ,且滿足規(guī)則f→{L–f}滿?足最小置信度閾值要求

圖片: https://uploader.shimo.im/f/Y9jdC9K2v34JBWUf.png

按照該原則可以優(yōu)化剪枝方法。

候選規(guī)則的生成:

合并兩條在規(guī)則的后件中有共享前綴的規(guī)則。連接(CD=>AB,BD=>AC)可以生成候選規(guī)則D => ABC,

刪除規(guī)則D=>ABC,若其子集CD=>AB不不具有高置信度的話

模式評(píng)價(jià):

置信度的局限性。各種度量都有其局限性。

度量的對(duì)稱性與非對(duì)稱性。

序列數(shù)據(jù):

子序列:序列列 <a1 a2 … an>包含于另一個(gè)序列列 <b1 b2 … bm> (m ≥ n) ,如果i

存在整數(shù)i1 < i2 < … < in 使得 a1 ? bi1 , a2 ? bi2, …, an ? bin

GSP算法

第六章 聚類分析

無(wú)監(jiān)督學(xué)習(xí),即無(wú)先驗(yàn)類劃分。可以單獨(dú)用來(lái)了解數(shù)據(jù)分布,也可以作為其他數(shù)據(jù)挖掘任務(wù)的與處理過(guò)程。

簇的中心:

質(zhì)心點(diǎn):平均。

中心點(diǎn):最有代表性的點(diǎn)。

評(píng)價(jià)聚類的質(zhì)量:

相異/相似矩陣 ,距離函數(shù)的定義

聚類方法:層次聚類和劃分聚類。

層次聚類:–創(chuàng)建給定數(shù)據(jù)集的層次分解。 形成一系列嵌套的簇,組合成層次樹(shù)。

劃分聚類:– 將數(shù)據(jù)對(duì)象分解為不重疊的子集(簇)。 每個(gè)數(shù)據(jù)對(duì)象都在唯一的子集中。

簇間的距離

? 單鏈:一個(gè)簇中的對(duì)象與另一個(gè)簇中對(duì)象距離的最小值

? 全鏈:一個(gè)簇中的對(duì)象與另一個(gè)簇中對(duì)象距離的最?大值

? 均值:一個(gè)簇中的對(duì)象與另一個(gè)簇中對(duì)象距離的平均值

基于質(zhì)心的距離或基于中心(主觀選擇)的距離

簇的半徑:簇中成員對(duì)象到質(zhì)心的平均距離

簇的直徑:簇中逐對(duì)對(duì)象的平均距離

層次聚類的優(yōu)點(diǎn):不需假設(shè)簇的數(shù)量,數(shù)量由樹(shù)狀圖的切割方式得到

缺點(diǎn):不不同的方法都會(huì)遇到下列列的?一個(gè)或多個(gè)問(wèn)題:

–對(duì)噪聲和離群點(diǎn)比較敏敏感

–難以處理理不不同規(guī)模的簇或者凸形狀的簇

–將較大的簇分開(kāi)了了

凝聚聚類算法:

計(jì)算相似矩陣

每個(gè)點(diǎn)看做獨(dú)立的簇

重復(fù)以下過(guò)程:合并最近的兩個(gè)類,更新相似矩陣,直到只有一個(gè)類

空間復(fù)雜度為O(N方),相似度矩陣存儲(chǔ)為n方大小,時(shí)間復(fù)雜度是O(n3)或O(n2logn)相似矩陣進(jìn)行n步查詢。

距離度量方法:

使用單鏈(MIN)度量方法的優(yōu)點(diǎn)與缺點(diǎn):能夠處理非橢圓形狀的簇,但對(duì)噪聲和孤立點(diǎn)非常敏感.

使用全鏈(MAX)度量方法的優(yōu)點(diǎn)與缺點(diǎn):對(duì)噪聲和離群點(diǎn)不敏感,但可能使較大的簇破裂,偏好形成球形的簇

使用均值度量:兩個(gè)簇的相似度是兩個(gè)簇間所有點(diǎn)對(duì)相似度的平均值。是全鏈和單鏈的折中,對(duì)噪聲和離群點(diǎn)不敏感,但也傾向于形成規(guī)則的圖形。

birth算法

是一種能夠高效處理大數(shù)據(jù)聚類的基于樹(shù)的層次聚類算法

線性擴(kuò)展:通過(guò)一次掃描發(fā)現(xiàn)較好的簇結(jié)構(gòu),并且通過(guò)少數(shù)幾次新的掃描提?高簇的質(zhì)量量

缺點(diǎn):對(duì)插?入數(shù)據(jù)順序是敏敏感的

– 限制了了葉節(jié)點(diǎn)的規(guī)模,?生成的簇不夠?自然

– 傾向于形成球形的簇

– 只適合于數(shù)值數(shù)據(jù)

K-means聚類

圖片: https://uploader.shimo.im/f/wfzsOSiUclE5Jo68.png

質(zhì)心初始隨機(jī)化,通常在計(jì)算中將簇中點(diǎn)的均值作為下次迭代的質(zhì)心

評(píng)價(jià)標(biāo)準(zhǔn)為SSE:每個(gè)點(diǎn)到最近簇的距離的平方和

圖片: https://uploader.shimo.im/f/polmcnnAT2sG48Wf.png

K-means對(duì)初始點(diǎn)選擇十分敏感

解決方法:

多運(yùn)行幾次

抽樣,使用層次聚類確定初始質(zhì)心

選擇多于K個(gè)初始質(zhì)心,從中選擇合適的質(zhì)心

二分K-means

空簇的處理:

選取一個(gè)新的質(zhì)心點(diǎn)替代,可以是對(duì)SSE貢獻(xiàn)最大的點(diǎn),即離質(zhì)心最遠(yuǎn)的點(diǎn),也可以在具有最大SSE的簇中選擇點(diǎn),這可以導(dǎo)致簇的分裂從而降低SSE。

預(yù)處理與后處理

預(yù)處理:數(shù)據(jù)規(guī)范化,刪除離群點(diǎn)

后處理:排除可能代表離群點(diǎn)的小簇,分裂松散的簇與合并較近的簇

二分K-means

首先將所有點(diǎn)作為一個(gè)簇,然后將該簇一分為二。之后選擇一個(gè)簇繼續(xù)進(jìn)行劃分,選擇哪一個(gè)簇進(jìn)行劃分取決于對(duì)其劃分是否可以最大程度降低SSE的值。而劃分就是上面提到的K-均值的思想了,利用上面的函數(shù)k設(shè)為2來(lái)劃分。通過(guò)不斷重復(fù)的操作,直到達(dá)到需要的簇?cái)?shù)量。

通過(guò)測(cè)量量不不同k值情況下聚類結(jié)果的質(zhì)量,通常可以分析出正確的k值

K-means的缺點(diǎn):

當(dāng)簇有著不不同的 規(guī)模? 密度? 不不規(guī)則形狀,數(shù)據(jù)包括離群點(diǎn)時(shí),k-means可能出現(xiàn)問(wèn)題

BFR算法:

在高位空間進(jìn)行聚類,思想是假設(shè)簇的行狀滿足以質(zhì)心為期望的正態(tài)分布。

CURE算法(歐式空間):可以處理不同形狀的類

點(diǎn)分配的大規(guī)模聚類算法,

1.抽取一部分?jǐn)?shù)據(jù)在內(nèi)存中進(jìn)?行行聚類

- 理理論上,可以采?任何的內(nèi)存聚類算法

- 由于簇可以是任意形狀,通常采用層次聚類的?方法

- CURE算法的特點(diǎn)是能夠處理理形狀古怪的簇

2.從每個(gè)簇中,選擇一小部分點(diǎn)作為簇的代表點(diǎn),選出的點(diǎn)之間盡量量相距較遠(yuǎn)

3.將每個(gè)代表點(diǎn)移動(dòng)一段距離

- 距離其位置到簇質(zhì)心的距離乘以一定比例,如20%

- 這一步必須在歐式空間下進(jìn)行,否則“兩點(diǎn)間線段”沒(méi)有定義

1.當(dāng)兩個(gè)簇的某對(duì)代表點(diǎn)(分別來(lái)自不不同的簇)之間足夠接近,就將兩個(gè)簇合并;

- “接近”的距離可以自行定義;

- 重復(fù)該過(guò)程,直到?jīng)]有?夠接近的簇為止;

2.進(jìn)行點(diǎn)分配。

費(fèi)歐式空間的聚類:

基于密度的聚類方法:

兩個(gè)參數(shù):

Eps:每個(gè)對(duì)象鄰域的半徑

MinPts 稠密區(qū)域的密度閾值,一個(gè)對(duì)象鄰域內(nèi)點(diǎn)的最小數(shù)量。

圖片: https://uploader.shimo.im/f/q0202pMDPnExujTz.png

? 核心點(diǎn):一個(gè)數(shù)據(jù)點(diǎn)的??-鄰域中至少包含MinPts個(gè)數(shù)據(jù)點(diǎn)

? 邊界點(diǎn):一個(gè)數(shù)據(jù)點(diǎn)的??-鄰域中包含的數(shù)據(jù)點(diǎn)的數(shù)量量少于MinPts,但是數(shù)據(jù)點(diǎn)位于某個(gè)核心點(diǎn)的??-鄰域中

噪聲點(diǎn):既不是核心點(diǎn),也不是邊界點(diǎn)的數(shù)據(jù)點(diǎn)

直接密度可達(dá):對(duì)于核心點(diǎn)q和數(shù)據(jù)點(diǎn)p,p是從q直接密度可達(dá)的,如果p在q的??-鄰域內(nèi)。

密度可達(dá):數(shù)據(jù)點(diǎn)p是從q(關(guān)于??和MinPts)密度可達(dá)的,如果存在一個(gè)對(duì)象鏈,p1, …, pn, p1 = q, pn = p ,并且對(duì)于pi ,pi+1 是從pi 直接密度可達(dá)的。圖左圖片: https://uploader.shimo.im/f/lGSKBE3mWhs0KpQT.png圖片: https://uploader.shimo.im/f/ci9RPy1pHKsA51Yi.png

密度相連:數(shù)據(jù)點(diǎn)p和q是(關(guān)于??和MinPts)密度相連的,如果存在一個(gè)數(shù)據(jù)點(diǎn)o,使得p和q都是從o(關(guān)于??和MinPts)密度可達(dá)的。

依靠與基于密度的簇的定義:一個(gè)簇是密度相連的數(shù)據(jù)點(diǎn)的最大集合

這樣的定義可以在有噪聲的空間中發(fā)現(xiàn)任意形狀的簇

DBSCAN算法:

能有效的處理理噪聲數(shù)據(jù)

? 能有效處理理不不同形狀和規(guī)模的簇

不適合同簇密度不同的數(shù)據(jù)與高維數(shù)據(jù)

去除噪聲點(diǎn):

圖片: https://uploader.shimo.im/f/n0QbSJeaRoUm6tM5.png

聚類評(píng)估的主要任務(wù):估計(jì)聚類趨勢(shì),確定簇的數(shù)量,評(píng)價(jià)聚類質(zhì)量。

深度學(xué)習(xí)兩章

圖片: https://uploader.shimo.im/f/RmlzM0SAxaY9MDLq.png

? ? ? ? ? ? ? ? 圖片: https://uploader.shimo.im/f/mh10DAcZpzoDZfpM.png? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

圖片: https://uploader.shimo.im/f/6Zgj2WzbI4sBOH4K.png

通用逼近定理:神經(jīng)網(wǎng)絡(luò)能以任意精度逼近功的連續(xù)函數(shù),即使對(duì)于只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),這結(jié)論依然成立。

損失函數(shù):如平方誤差SSE,交叉熵等

梯度下降圖片: https://uploader.shimo.im/f/osA2n3zBKQAOnysH.png,達(dá)到局部最小值

可采用自適應(yīng)學(xué)習(xí)率,如隨迭代次數(shù)不斷減小學(xué)習(xí)率

AdaGrad算法? 每個(gè)參數(shù)在各自維度上收斂速度不相同,根據(jù)不同收斂情況分別設(shè)置學(xué)習(xí)率,即每次迭代自適應(yīng)地調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。

反向傳播算法:利用輸出誤差估 計(jì)層的直接前導(dǎo),再其利用其估計(jì)更前一層誤差,逐反傳下去直至獲得所有其他各層的誤差估計(jì),基于此修正權(quán)值。

收斂判定:誤差最小,一般取誤差函數(shù)局部梯度零點(diǎn)。

數(shù)據(jù)集拆分:留出法,k-折交叉驗(yàn)證

CNN三大特點(diǎn):局部連接,權(quán)值共享,池化算法(maxpooling或meanpooling)

通過(guò)kernel近似卷積的計(jì)算,CNN具有參數(shù)更少,收斂更快,能進(jìn)行區(qū)域特征識(shí)別的優(yōu)勢(shì)。

第二部分

第一章? 多元數(shù)據(jù)的數(shù)學(xué)表達(dá)與統(tǒng)計(jì)描述

隨機(jī)變量與隨機(jī)(變量)向量 參見(jiàn)隨機(jī)過(guò)程

總體期望與方差,協(xié)方差矩陣圖片: https://uploader.shimo.im/f/kpJD7RfyajUpNDxe.png

二階距存在才有方差哦

圖片: https://uploader.shimo.im/f/Ld1x5emyudEPvBlT.png

圖片: https://uploader.shimo.im/f/P09cCzkiFU4FnCpR.png

相互獨(dú)立:聯(lián)合分布等于邊緣分布乘積,密度函數(shù)同理圖片: https://uploader.shimo.im/f/HzyxJ1k35AIZzaPP.png

不相關(guān):相關(guān)系數(shù)為0

圖片: https://uploader.shimo.im/f/M82godBiRR0ZKviY.png

圖片: https://uploader.shimo.im/f/XusevrfvKygmFPeD.png

圖片: https://uploader.shimo.im/f/TBcHGkI81Co3lrG4.png

圖片: https://uploader.shimo.im/f/YIVXbchsa5c3jGot.png

圖片: https://uploader.shimo.im/f/TOjsx1QzeTourYKA.png

圖片: https://uploader.shimo.im/f/oNQkGn5AoTMbs6iV.png

樣本協(xié)方差與樣本協(xié)方陣

圖片: https://uploader.shimo.im/f/5inoqF4EFWsRVImD.png

圖片: https://uploader.shimo.im/f/h2MxcondUtI5zIjL.png

圖片: https://uploader.shimo.im/f/fqwoaX0QoBsQ80mk.png

圖片: https://uploader.shimo.im/f/JFAcPMPwMGM8vbM8.png

數(shù)據(jù)的基本統(tǒng)計(jì)描述:

中心趨勢(shì)度量:均值、中位數(shù)、眾數(shù)、中列數(shù)

數(shù)據(jù)的散布:極差、四分位極差(Q3-Q1)、方差、標(biāo)準(zhǔn)差d

圖形化表示:盒圖(五數(shù)概括)、分位圖、直方圖、分位數(shù)分位數(shù)圖、散點(diǎn)圖

均值與加權(quán)平均:對(duì)極端值敏感,可以丟棄極端值

數(shù)據(jù)的相似性與相異性:

相異性矩陣

標(biāo)稱屬性比較:

圖片: https://uploader.shimo.im/f/6Qlj0cprdT0WqyEn.png

二元相異性:

圖片: https://uploader.shimo.im/f/liTCkUEUG84jr4bt.png距離度量:

圖片: https://uploader.shimo.im/f/qckc5tbXJa4MY9r0.png

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容