无码伊人精品亚洲,国产人人色

第一章緒論

數(shù)據(jù)：網(wǎng)絡(luò)空間的任何事物。

結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與無(wú)結(jié)構(gòu)數(shù)據(jù)：后兩者是研究的主要內(nèi)容。

大數(shù)據(jù)定義:狹義指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合，廣義上指基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。

數(shù)據(jù)挖掘是統(tǒng)計(jì)模型的構(gòu)建過(guò)程。

人工智能：究重心在機(jī)器學(xué)習(xí)和推理機(jī)制。算法的理論性強(qiáng)，追求理論的正確性。

數(shù)據(jù)挖掘：強(qiáng)調(diào)算法的實(shí)用性，不關(guān)心理論問(wèn)題的解決，而是關(guān)心實(shí)際問(wèn)題的解決

第二章：數(shù)據(jù)與處理

數(shù)據(jù)集的類型：記錄數(shù)據(jù)，圖和網(wǎng)絡(luò)數(shù)據(jù)，有序數(shù)據(jù)，多媒體數(shù)據(jù)。

數(shù)據(jù)預(yù)處理任務(wù)：是為了提高數(shù)據(jù)挖掘效率與質(zhì)量進(jìn)行的預(yù)處理工作，包括數(shù)據(jù)清理，數(shù)據(jù)集成，數(shù)據(jù)變換，數(shù)據(jù)規(guī)約，數(shù)據(jù)離散化等。

處理噪聲數(shù)據(jù)的方法：分箱---用臨近數(shù)據(jù)進(jìn)行光滑，如箱均值，中位數(shù)，箱邊界；回歸---將缺失值通過(guò)回歸函數(shù)進(jìn)行預(yù)測(cè)。

處理離群點(diǎn)數(shù)據(jù)：通過(guò)聚類進(jìn)行檢測(cè)，數(shù)據(jù)光滑處理，通過(guò)外部手段糾正等，有時(shí)根據(jù)具體情況不需要處理。

數(shù)據(jù)集成：合并來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)。

相關(guān)系數(shù)：線性相關(guān)程度

圖片: https://uploader.shimo.im/f/KCTf39hcJLM9It7m.png

卡方檢驗(yàn)（相關(guān)分析）：

圖片: https://uploader.shimo.im/f/TboWeCcY5fgfg9Xa.png

數(shù)據(jù)變換：數(shù)據(jù)的光滑、聚集、泛5化（離散化與分層）、規(guī)范化、特征構(gòu)造等。

第三章鏈接分析

PageRank算法（網(wǎng)頁(yè)的重要程度僅由指向它的網(wǎng)頁(yè)決定）：

轉(zhuǎn)移矩陣是個(gè)n*n列的方陣，用來(lái)描述隨機(jī)沖浪者的下一步訪問(wèn)行為

? 如果網(wǎng)頁(yè)j有k條出鏈，那么對(duì)每條出邊鏈向的網(wǎng)頁(yè)i，m_ij=1/k

? 其他網(wǎng)頁(yè)的i對(duì)應(yīng)的矩陣元素mij=0

隨機(jī)沖浪的過(guò)程：

基本算法思想

隨機(jī)沖浪者位置的概率分布可以用一個(gè)n維列向量表示，其中分量j代表位于網(wǎng)頁(yè)j的概率。該概率即PageRank值，初始n個(gè)網(wǎng)頁(yè)的初始概率都為V_0。

Web的轉(zhuǎn)移矩陣為M。第一步之后，沖浪者的概率分布向量是Mv0，第二步為M^2v0，i步后為M^iv_0.

收斂前提條件：1.圖為強(qiáng)連通圖 2.不存在終止節(jié)點(diǎn)

算法終止條件：M^（i+1）v_0 = M^iv_0 ----迭代前后結(jié)果差異足夠小，一般50~75次即可收斂

算法優(yōu)化

處理終止點(diǎn)問(wèn)題：

將其行列從圖中剔除，若產(chǎn)生新的終止點(diǎn)，則迭代刪除，直至無(wú)終止點(diǎn)。

修改隨機(jī)沖浪者在Web上的沖浪過(guò)程

終止點(diǎn)的PageRank值：

對(duì)刪除終止點(diǎn)之后的圖G，計(jì)算出各節(jié)點(diǎn)的PageRank值

恢復(fù)到原圖，但仍然保留G中各節(jié)點(diǎn)的PageRank值

對(duì)不在G中的終止點(diǎn)及偽終止點(diǎn)：

若所有指向它的網(wǎng)頁(yè)P(yáng)ageRank都已算出，則它的PageRank=∑這些網(wǎng)頁(yè)的PageRank/出鏈數(shù)，否則等待其他終止點(diǎn)網(wǎng)頁(yè)計(jì)算PageRank。即按照終止點(diǎn)刪除順序的逆序進(jìn)行節(jié)點(diǎn)的PageRank計(jì)算。

采集器陷阱及“抽稅法”：采集器陷阱指的是一系列節(jié)點(diǎn)，它們可能互相鏈接，但是卻不會(huì)鏈接集合以外的節(jié)點(diǎn)，即沒(méi)有出鏈指向集合之外。當(dāng)采集器（爬蟲(chóng)程序）一旦進(jìn)入采集器陷阱，將無(wú)法跳出。

solution：抽稅機(jī)制--進(jìn)行隨機(jī)跳轉(zhuǎn)：允許隨機(jī)沖浪者以一個(gè)較小的概率隨機(jī)跳轉(zhuǎn)到一個(gè)隨機(jī)網(wǎng)頁(yè)，而不一定沿著當(dāng)前網(wǎng)頁(yè)的出鏈前進(jìn)。

圖片: https://uploader.shimo.im/f/jHWyyeqxeqkCT1f5.png

其中，β是選定的常數(shù)，通常取值在0.8到0.9之間。e是一個(gè)所有分量都為1、維數(shù)為n的向量，n是Web圖中所有節(jié)點(diǎn)的數(shù)目。

PageRank優(yōu)點(diǎn)：由于M的稀疏性計(jì)算快速，且避免了磁盤(pán)的大量使用?？梢詫⑾∈杈仃噳嚎s表示（方法如下，轉(zhuǎn)移矩陣是特殊的稀疏矩陣）

圖片: https://uploader.shimo.im/f/ydit1i6wJrgo4lx4.png

圖片: https://uploader.shimo.im/f/gjdVDmaSf80NM8bC.png

面向主題的Page Rank

有偏的隨機(jī)游走模型：識(shí)別特定主題的網(wǎng)頁(yè)集合，作為隨機(jī)跳轉(zhuǎn)集合的范圍，只有該集合中的網(wǎng)頁(yè)才能共享抽稅部分所占的PageRank值。

假定整數(shù)集合S由已知屬于某個(gè)主題的網(wǎng)頁(yè)，e_s是一個(gè)向量，若其分量對(duì)應(yīng)的網(wǎng)頁(yè)屬于S，則該分量置為1，否則為0，面向主題S的PageRank值是圖片: https://uploader.shimo.im/f/th4Ni0EDHxkUACgA.png的極限。其中，︱S︱是集合S的大小

鏈接作弊及應(yīng)對(duì)

人工增加某個(gè)特定網(wǎng)頁(yè)P(yáng)ageRank的方法稱為鏈接作弊，由此得到的信息統(tǒng)稱為垃圾

不可達(dá)網(wǎng)頁(yè)（Inaccessible pages），作弊者無(wú)法影響的網(wǎng)頁(yè)，Web中的絕大多數(shù)網(wǎng)頁(yè)

可達(dá)網(wǎng)頁(yè)（Accessible pages），不受作弊者控制，但可以影響的網(wǎng)頁(yè)

如評(píng)論網(wǎng)頁(yè)，作弊者可以在其上粘貼指向自有網(wǎng)頁(yè)的鏈接

自有網(wǎng)頁(yè)（Own pages），被作弊者完全控制的網(wǎng)頁(yè)

可能跨越多個(gè)域名

垃圾農(nóng)場(chǎng)：目標(biāo)是最大化目標(biāo)網(wǎng)頁(yè)的PageRank值，技術(shù)：在可達(dá)網(wǎng)頁(yè)上盡可能多的構(gòu)造指向目標(biāo)網(wǎng)頁(yè)的鏈接、構(gòu)造“鏈接農(nóng)場(chǎng)”來(lái)形成PageRank值的倍增效應(yīng)

垃圾農(nóng)場(chǎng)放大效果計(jì)算：令X為所有可達(dá)網(wǎng)頁(yè)為垃圾農(nóng)場(chǎng)提供的PageRank總量，m為自由網(wǎng)頁(yè)數(shù)量，則目標(biāo)網(wǎng)頁(yè)P(yáng)ageRank值y為圖片: https://uploader.shimo.im/f/fhCCyQHyzfkF5wtE.png

Solution：

Trust Rank和垃圾質(zhì)量：思想是可靠網(wǎng)頁(yè)不太可能指向垃圾網(wǎng)頁(yè)。

垃圾質(zhì)量=（PageRank-TrustRank）/PageRank, 越大越可能是垃圾網(wǎng)頁(yè)，負(fù)數(shù)或小正數(shù)可能是正常網(wǎng)頁(yè)

Timed-PageRank:? ? PageRank算法+時(shí)效性，引入時(shí)間函數(shù)f(t)∈[0,1], t為距上次更新的時(shí)間，表示沖浪者沿所在網(wǎng)頁(yè)的鏈接繼續(xù)沖浪的概率，1-f(t) 為跳轉(zhuǎn)到隨機(jī)網(wǎng)頁(yè)的概率。

HITS算法（網(wǎng)頁(yè)的重要程度由與它關(guān)聯(lián)的所有網(wǎng)頁(yè)共同決定，包含出鏈和入鏈）

權(quán)威頁(yè)（authority）：某些網(wǎng)頁(yè)提供了有關(guān)某個(gè)主題的信息，因此它們具有非常重要的價(jià)值，這些網(wǎng)頁(yè)被稱為權(quán)威頁(yè)? 例如：課程主頁(yè)、汽車(chē)制造商的網(wǎng)頁(yè)等

權(quán)威度(a=authority)：該網(wǎng)頁(yè)充當(dāng)權(quán)威頁(yè)的良好程度，通過(guò)累加所有鏈入網(wǎng)頁(yè)的導(dǎo)航度來(lái)估算當(dāng)前頁(yè)的權(quán)威度。

導(dǎo)航頁(yè)（h=hub）：鏈向權(quán)威頁(yè)的網(wǎng)頁(yè)，它們雖然并不提供有關(guān)任何主題的信息，但是卻可以給出找到關(guān)于該主題的網(wǎng)頁(yè)的信息，因此它們也具有重要價(jià)值? 例如：院系門(mén)戶網(wǎng)頁(yè)、汽車(chē)制造商列表等

導(dǎo)航度：該網(wǎng)頁(yè)充當(dāng)導(dǎo)航頁(yè)的良好程度，通過(guò)累加所有鏈出網(wǎng)頁(yè)的權(quán)威度來(lái)估算當(dāng)前頁(yè)的導(dǎo)航度

Web鏈接矩陣L：若有n個(gè)網(wǎng)頁(yè)，那么L就是一個(gè)n*n的矩陣，如果網(wǎng)頁(yè)i到j(luò)存在一個(gè)鏈接，則Lij=1，否則Lij=0

導(dǎo)航度 h = λLa ，權(quán)威度a = μL^Th ,其中λ和μ是代表歸一化因子的常數(shù)，兩個(gè)式子通過(guò)迭代進(jìn)行計(jì)算，并將每次結(jié)果進(jìn)行最大分量歸一化，直至收斂。

第四章發(fā)現(xiàn)相似項(xiàng)

近鄰搜索的應(yīng)用（尋找相似的集合）

如檢測(cè)抄襲文檔，Web鏡像檢測(cè)

集合的Jaccard相似度圖片: https://uploader.shimo.im/f/APHprmWnxO0JYd4k.png? 計(jì)算時(shí)注意包和集合的區(qū)分? https://www.cnblogs.com/chenxiangzhen/p/10648503.html? 鏈接為各種距離度量

如果數(shù)據(jù)存在“分?jǐn)?shù)膨脹“問(wèn)題，就使用皮爾遜相關(guān)系數(shù)

如果數(shù)據(jù)比較密集，變量之間基本都存在共有值，且這些距離數(shù)據(jù)都是非常重要的，那就使用歐幾里得或者曼哈頓距離

如果數(shù)據(jù)是稀疏的，就使用余弦相似度

TF.IDF---- 詞項(xiàng)頻率乘以逆文檔頻率

-是對(duì)給定詞語(yǔ)在少數(shù)文檔中反復(fù)出現(xiàn)程度的形式化度量，正相關(guān)于某詞在該篇文檔的出現(xiàn)頻率和該詞在其他文檔的未出現(xiàn)次數(shù)。

圖片: https://uploader.shimo.im/f/PUQwGlgfwd4AtNQ5.png

K-shingling 算法（將文檔看成一個(gè)字符串，K表示劃分粒度，可以是k長(zhǎng)的子串，也可以是k個(gè)單詞等，將文檔都用一個(gè)或多個(gè)k-Shingle集合表示）

k的選擇：5-9.太小會(huì)造成文檔相似性太高，太大也會(huì)造成不準(zhǔn)確。

shingle的壓縮處理：可以將k長(zhǎng)字符串通過(guò)哈希映射到定長(zhǎng)（如四字節(jié)）桶編號(hào)，將桶編號(hào)作為最終的shingle，文檔即被表示成桶編號(hào)的集合。

將9-shingles映射到4字節(jié)整數(shù)進(jìn)行處理，與直接使用4-shingles來(lái)表示文檔的區(qū)別？

答：從適用范圍看，4字節(jié)的桶編號(hào)范圍為[0,2^32-1], 9shingles映射到四字節(jié)桶編號(hào)能夠比較充分地保留較長(zhǎng)shingles的差異性，即能夠較好地進(jìn)行長(zhǎng)文本相似性對(duì)比，而4-shingles更適合短文本的差異性比較。但從存儲(chǔ)角度來(lái)看，由于桶編號(hào)是4字節(jié)，單篇文本用第一種方法存儲(chǔ)shingles約需要四倍文檔大小的存儲(chǔ)空間，與4shingles的存儲(chǔ)大約相同。

基于詞的shingle

最小哈希Minhashing：映射到四個(gè)字節(jié)的shingle集合約為文檔4倍大小，還是很大。當(dāng)文檔數(shù)增大時(shí)不能直接裝入內(nèi)存。該技術(shù)用較小的“簽名”表示shingle集合，可以較好地估計(jì)集合相似度。

集合構(gòu)造簽名包含大量計(jì)算，每次計(jì)算是特征矩陣的minhashing過(guò)程：– 首先選擇行號(hào)的一個(gè)排列進(jìn)行行變換，每列的最小哈希值為變換后的1所在行的最小行號(hào)。

經(jīng)過(guò)隨機(jī)行打亂后，兩個(gè)集合的最小哈希值相等的概率等于這兩個(gè)集合的Jaccard相似度

最小哈希簽名：對(duì)于表示集合S的特征矩陣M，隨機(jī)選擇n（幾百個(gè)）個(gè)排列轉(zhuǎn)換用于行排列，則每列對(duì)應(yīng)有各自的n個(gè)最小哈希值，每列的這些值作為該列的最小哈希簽名向量，這些向量構(gòu)成了一個(gè)n行*M的列數(shù) 列的簽名矩陣，空間更小。

計(jì)算過(guò)程：顯式的排列轉(zhuǎn)換不適用大規(guī)模矩陣，通過(guò)哈希函數(shù)模擬排列的效果。將行號(hào)映射到與行數(shù)目大致相等數(shù)量的桶中，數(shù)量很大且哈希結(jié)果沖突不頻繁時(shí)，可以假設(shè)r行放在H（r）位置。這樣選擇n個(gè)哈希函數(shù)模擬行排列。

具體算法過(guò)程參考ppt，簽名向量的相似度一定程度上能反映特征向量的相似度。

局部敏感哈希算法（LSH）或近鄰搜索：只關(guān)注相似的文檔，不用分析所有文檔時(shí)使用。

算法思路：使用函數(shù)f（x，y）判斷文檔相似度，將哈希矩陣中每一列哈希映射到桶中，對(duì)每個(gè)桶中文檔進(jìn)行相似判斷。進(jìn)行多次哈希操作，盡可能使只有最相似的列在一個(gè)桶，將桶中集合作為候選對(duì)進(jìn)行相似判斷。目標(biāo)是盡可能減小偽正例和偽反例

計(jì)算過(guò)程：

M劃分為b個(gè)行條，每個(gè)r行

行條中每一列哈希映射到k個(gè)桶中（k足夠大）

候選列對(duì)為至少在一個(gè)行條中被映射到同一桶中的列對(duì)

調(diào)整b和r，獲得盡可能多的相似對(duì)與盡可能少的非相似對(duì)

第五章頻繁模式挖掘、關(guān)聯(lián)和相關(guān)性

頻繁模式：數(shù)據(jù)集中頻繁出現(xiàn)的模式。

k項(xiàng)集：包含k個(gè)項(xiàng)的集合。

項(xiàng)的支持頻度（支持度計(jì)數(shù)或計(jì)數(shù)），項(xiàng)的相對(duì)支持度（支持度/全體事務(wù)）

頻繁項(xiàng)集：項(xiàng)集支持度滿足預(yù)定義的最小支持度閾值

圖片: https://uploader.shimo.im/f/BkbRUd2ClasT4HEV.png

關(guān)聯(lián)規(guī)則挖掘：找出頻繁項(xiàng)集（滿足最小支持度），產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則（同時(shí)滿足最小置信度）

X在D中是閉的：不存在真超項(xiàng)集Y，使Y與X在D中具有相同的支持度計(jì)數(shù)

閉頻繁項(xiàng)集：X是閉的和頻繁的

極大頻繁項(xiàng)集：X在D中頻繁，且不存在超項(xiàng)集Y且Y在D中也是頻繁的。稱X是極大頻繁項(xiàng)集。

圖片: https://uploader.shimo.im/f/Hvjc16cxMYQiXlSM.png

頻繁項(xiàng)集的挖掘策略：

減少候選集的數(shù)量（減小M）（剪枝策略）

減少事務(wù)的數(shù)量（減小N）（不包含任何k項(xiàng)集的事務(wù)在候選k+1時(shí)刪除）

減少比較的數(shù)量（減小NM）

先驗(yàn)性質(zhì)：頻繁項(xiàng)集的所有非空子集也一定頻繁，即非頻繁項(xiàng)的所有超集都是非頻繁的。

Apriori算法（思想）：

連接步：通過(guò)將Lk與自身連接，產(chǎn)生候選（k+1）項(xiàng)集Ck+1

剪枝：掃描數(shù)據(jù)庫(kù),確定Ck+1中每個(gè)項(xiàng)的計(jì)數(shù)，從而確定Lk+1

當(dāng)沒(méi)有頻繁項(xiàng)集L或候選項(xiàng)集產(chǎn)生時(shí)算法終止。

圖片: https://uploader.shimo.im/f/51D61kUzgKcbUJBI.png

圖片: https://uploader.shimo.im/f/8IrWuOtOa8kGWhyE.png

圖片: https://uploader.shimo.im/f/2JgmCbCQNHExTJRD.png

項(xiàng)的表示優(yōu)化：

將字符串項(xiàng)哈希轉(zhuǎn)化為整數(shù)

三角矩陣：用一位數(shù)組存儲(chǔ)作為二項(xiàng)集的映射（ij映射為數(shù)組下標(biāo)）

用三元組存儲(chǔ)項(xiàng)對(duì)

2-項(xiàng)集計(jì)數(shù)內(nèi)存優(yōu)化：無(wú)法在內(nèi)存中對(duì)所有項(xiàng)集計(jì)數(shù)，減少需要計(jì)數(shù)的2-項(xiàng)集數(shù)目，掃描兩遍

第一遍掃描：建立項(xiàng)名與整數(shù)映射表，建立計(jì)數(shù)數(shù)組，下標(biāo)為對(duì)應(yīng)的項(xiàng)集映射整數(shù)，掃描并計(jì)數(shù)。

第一遍掃描后：檢查項(xiàng)的計(jì)數(shù)值，確定頻繁1項(xiàng)集，將其按照數(shù)量m進(jìn)行1-m編號(hào)，在計(jì)數(shù)數(shù)組中將對(duì)應(yīng)值改為編號(hào)。

第二遍掃描：用三角矩陣法，空間為2m^2，也可用三元組方法

PCY算法：第一次掃描時(shí)，將每個(gè)事務(wù)產(chǎn)生的二項(xiàng)集散列到不同桶中，并增加桶計(jì)數(shù)，掃描結(jié)束后用bitmap來(lái)記錄哪個(gè)是頻繁桶，生成候選項(xiàng)集選擇時(shí)，留下在頻繁桶中的候選集，不在候選集的則刪除。

效果：如果大部分桶都是非頻繁的，那么第二次掃描需要計(jì)數(shù)的項(xiàng)對(duì)數(shù)目會(huì)顯著降低。與Apriori相比，項(xiàng)對(duì)的表示只能采用三元組法，只減少了2-項(xiàng)集的計(jì)算，如果不能減少至少2/3的頻繁對(duì)，則PCY并不比Apriori算法更好。

多階段算法：第一遍掃描同SPY，在第二次掃描時(shí)用里一個(gè)哈希函數(shù)建立第二張哈希表，第二張哈希表與第一張桶數(shù)目接近，進(jìn)行第二次掃描時(shí)進(jìn)行哈希的項(xiàng)對(duì){i，j}：i，j都是頻繁項(xiàng)，且{i，j}

在第一遍掃描中被哈希到一個(gè)頻繁桶。兩個(gè)bitmap。

候選二項(xiàng)集的條件：i和j都是頻繁項(xiàng)，{i,j}哈希到第一張表的某個(gè)頻繁桶中，同時(shí)也哈希到第二張表的某個(gè)頻繁桶中

效果：第二張哈希表的計(jì)數(shù)值之和，顯著低于第一張哈希表的計(jì)數(shù)值之和，期望第二張表中頻繁桶的數(shù)目遠(yuǎn)低于第一張表。

多哈希算法：在第一次掃描時(shí)同時(shí)使用兩個(gè)哈希函數(shù)和兩張獨(dú)立的哈希表，就得到了多階段掃描的好處。

風(fēng)險(xiǎn)：使用兩張哈希表，但每張表的桶只有PCY的一半。

期望：只要PCY中每個(gè)桶的平均計(jì)數(shù)值遠(yuǎn)小于支持度閾值，就可以使用兩張一半大小的表并期望大部分桶都是非頻繁的。

Apriori的進(jìn)一步改進(jìn)：

較少比較次數(shù)，不再將每個(gè)事務(wù)與每個(gè)候選項(xiàng)集進(jìn)行比較，而是將事務(wù)與存在哈希桶中的候選項(xiàng)進(jìn)行比較

構(gòu)造哈希樹(shù)，可以明顯減少比較次數(shù)

頻繁模式增長(zhǎng)：

? 將代表頻繁項(xiàng)集的數(shù)據(jù)壓縮到一棵頻繁模式樹(shù)（FP-樹(shù)），? 建立頻繁模式樹(shù)之后，采用遞歸的分治方法直接挖掘頻繁項(xiàng)集

方法：掃描第一次并計(jì)數(shù)，由長(zhǎng)度為1的頻繁模式開(kāi)始，構(gòu)造條件模式基并排序。

掃描第二次，將事務(wù)也同序排序并構(gòu)建FP樹(shù)。。。。。

保持了用于頻繁模式挖掘的全部信息，沒(méi)有打斷任何事務(wù)中的長(zhǎng)模式。簡(jiǎn)潔性。

垂直數(shù)據(jù)格式：? 確定k-項(xiàng)集的支持度：對(duì)它的任意（k-1)子集求交集

圖片: https://uploader.shimo.im/f/BLUHHjw79O81Jm9h.png圖片: https://uploader.shimo.im/f/BQCT63MEf4QTWMzg.png

優(yōu)點(diǎn)：計(jì)算快，無(wú)需掃描數(shù)據(jù)庫(kù)

缺點(diǎn)：不適合大規(guī)模TID列表

圖片: https://uploader.shimo.im/f/9UfE6ImUgekTg1o5.png

有限掃描算法：只選擇購(gòu)物籃的隨機(jī)子集看做數(shù)據(jù)集。

偽正例：再做一次掃描去除。

偽反例：放松支持度閾值減小數(shù)量。

SON算法：兩次掃描去掉所有偽正例和偽反例。

方法：先分塊，計(jì)算后將各塊的頻繁項(xiàng)集合并，第二遍掃描確定最終的頻繁項(xiàng)集。

產(chǎn)生關(guān)聯(lián)規(guī)則：? 給定頻繁項(xiàng)集L，找出L的所有非空子集f（f?L），且滿足規(guī)則f→{L–f}滿?足最小置信度閾值要求

圖片: https://uploader.shimo.im/f/Y9jdC9K2v34JBWUf.png

按照該原則可以優(yōu)化剪枝方法。

候選規(guī)則的生成：

合并兩條在規(guī)則的后件中有共享前綴的規(guī)則。連接(CD=>AB,BD=>AC)可以生成候選規(guī)則D => ABC，

刪除規(guī)則D=>ABC，若其子集CD=>AB不不具有高置信度的話

模式評(píng)價(jià)：

置信度的局限性。各種度量都有其局限性。

度量的對(duì)稱性與非對(duì)稱性。

序列數(shù)據(jù)：

子序列：序列列 <a1 a2 … an>包含于另一個(gè)序列列 <b1 b2 … bm> (m ≥ n) ，如果i

存在整數(shù)i1 < i2 < … < in 使得 a1 ? bi1 , a2 ? bi2, …, an ? bin

GSP算法

第六章聚類分析

無(wú)監(jiān)督學(xué)習(xí)，即無(wú)先驗(yàn)類劃分。可以單獨(dú)用來(lái)了解數(shù)據(jù)分布，也可以作為其他數(shù)據(jù)挖掘任務(wù)的與處理過(guò)程。

簇的中心：

質(zhì)心點(diǎn)：平均。

中心點(diǎn)：最有代表性的點(diǎn)。

評(píng)價(jià)聚類的質(zhì)量：

相異/相似矩陣，距離函數(shù)的定義

聚類方法：層次聚類和劃分聚類。

層次聚類：–創(chuàng)建給定數(shù)據(jù)集的層次分解。形成一系列嵌套的簇，組合成層次樹(shù)。

劃分聚類：– 將數(shù)據(jù)對(duì)象分解為不重疊的子集（簇）。每個(gè)數(shù)據(jù)對(duì)象都在唯一的子集中。

簇間的距離

? 單鏈：一個(gè)簇中的對(duì)象與另一個(gè)簇中對(duì)象距離的最小值

? 全鏈：一個(gè)簇中的對(duì)象與另一個(gè)簇中對(duì)象距離的最?大值

? 均值：一個(gè)簇中的對(duì)象與另一個(gè)簇中對(duì)象距離的平均值

基于質(zhì)心的距離或基于中心（主觀選擇）的距離

簇的半徑：簇中成員對(duì)象到質(zhì)心的平均距離

簇的直徑：簇中逐對(duì)對(duì)象的平均距離

層次聚類的優(yōu)點(diǎn)：不需假設(shè)簇的數(shù)量，數(shù)量由樹(shù)狀圖的切割方式得到

缺點(diǎn)：不不同的方法都會(huì)遇到下列列的?一個(gè)或多個(gè)問(wèn)題：

–對(duì)噪聲和離群點(diǎn)比較敏敏感

–難以處理理不不同規(guī)模的簇或者凸形狀的簇

–將較大的簇分開(kāi)了了

凝聚聚類算法：

計(jì)算相似矩陣

每個(gè)點(diǎn)看做獨(dú)立的簇

重復(fù)以下過(guò)程：合并最近的兩個(gè)類，更新相似矩陣，直到只有一個(gè)類

空間復(fù)雜度為O（N方），相似度矩陣存儲(chǔ)為n方大小，時(shí)間復(fù)雜度是O(n3）或O（n2logn）相似矩陣進(jìn)行n步查詢。

距離度量方法：

使用單鏈（MIN）度量方法的優(yōu)點(diǎn)與缺點(diǎn)：能夠處理非橢圓形狀的簇，但對(duì)噪聲和孤立點(diǎn)非常敏感.

使用全鏈（MAX）度量方法的優(yōu)點(diǎn)與缺點(diǎn)：對(duì)噪聲和離群點(diǎn)不敏感，但可能使較大的簇破裂，偏好形成球形的簇

使用均值度量：兩個(gè)簇的相似度是兩個(gè)簇間所有點(diǎn)對(duì)相似度的平均值。是全鏈和單鏈的折中，對(duì)噪聲和離群點(diǎn)不敏感，但也傾向于形成規(guī)則的圖形。

birth算法

是一種能夠高效處理大數(shù)據(jù)聚類的基于樹(shù)的層次聚類算法

線性擴(kuò)展：通過(guò)一次掃描發(fā)現(xiàn)較好的簇結(jié)構(gòu)，并且通過(guò)少數(shù)幾次新的掃描提?高簇的質(zhì)量量

缺點(diǎn)：對(duì)插?入數(shù)據(jù)順序是敏敏感的

– 限制了了葉節(jié)點(diǎn)的規(guī)模，?生成的簇不夠?自然

– 傾向于形成球形的簇

– 只適合于數(shù)值數(shù)據(jù)

K-means聚類

圖片: https://uploader.shimo.im/f/wfzsOSiUclE5Jo68.png

質(zhì)心初始隨機(jī)化，通常在計(jì)算中將簇中點(diǎn)的均值作為下次迭代的質(zhì)心

評(píng)價(jià)標(biāo)準(zhǔn)為SSE：每個(gè)點(diǎn)到最近簇的距離的平方和

圖片: https://uploader.shimo.im/f/polmcnnAT2sG48Wf.png

K-means對(duì)初始點(diǎn)選擇十分敏感

解決方法：

多運(yùn)行幾次

抽樣，使用層次聚類確定初始質(zhì)心

選擇多于K個(gè)初始質(zhì)心，從中選擇合適的質(zhì)心

二分K-means

空簇的處理：

選取一個(gè)新的質(zhì)心點(diǎn)替代，可以是對(duì)SSE貢獻(xiàn)最大的點(diǎn)，即離質(zhì)心最遠(yuǎn)的點(diǎn)，也可以在具有最大SSE的簇中選擇點(diǎn)，這可以導(dǎo)致簇的分裂從而降低SSE。

預(yù)處理與后處理

預(yù)處理：數(shù)據(jù)規(guī)范化，刪除離群點(diǎn)

后處理：排除可能代表離群點(diǎn)的小簇，分裂松散的簇與合并較近的簇

二分K-means

首先將所有點(diǎn)作為一個(gè)簇，然后將該簇一分為二。之后選擇一個(gè)簇繼續(xù)進(jìn)行劃分，選擇哪一個(gè)簇進(jìn)行劃分取決于對(duì)其劃分是否可以最大程度降低SSE的值。而劃分就是上面提到的K-均值的思想了，利用上面的函數(shù)k設(shè)為2來(lái)劃分。通過(guò)不斷重復(fù)的操作，直到達(dá)到需要的簇?cái)?shù)量。

通過(guò)測(cè)量量不不同k值情況下聚類結(jié)果的質(zhì)量，通常可以分析出正確的k值

K-means的缺點(diǎn)：

當(dāng)簇有著不不同的規(guī)模? 密度? 不不規(guī)則形狀，數(shù)據(jù)包括離群點(diǎn)時(shí)，k-means可能出現(xiàn)問(wèn)題

BFR算法：

在高位空間進(jìn)行聚類，思想是假設(shè)簇的行狀滿足以質(zhì)心為期望的正態(tài)分布。

CURE算法（歐式空間）：可以處理不同形狀的類

點(diǎn)分配的大規(guī)模聚類算法，

1.抽取一部分?jǐn)?shù)據(jù)在內(nèi)存中進(jìn)?行行聚類

- 理理論上，可以采?任何的內(nèi)存聚類算法

- 由于簇可以是任意形狀，通常采用層次聚類的?方法

- CURE算法的特點(diǎn)是能夠處理理形狀古怪的簇

2.從每個(gè)簇中，選擇一小部分點(diǎn)作為簇的代表點(diǎn)，選出的點(diǎn)之間盡量量相距較遠(yuǎn)

3.將每個(gè)代表點(diǎn)移動(dòng)一段距離

- 距離其位置到簇質(zhì)心的距離乘以一定比例，如20%

- 這一步必須在歐式空間下進(jìn)行，否則“兩點(diǎn)間線段”沒(méi)有定義

1.當(dāng)兩個(gè)簇的某對(duì)代表點(diǎn)（分別來(lái)自不不同的簇）之間足夠接近，就將兩個(gè)簇合并；

- “接近”的距離可以自行定義；

- 重復(fù)該過(guò)程，直到?jīng)]有?夠接近的簇為止；

2.進(jìn)行點(diǎn)分配。

費(fèi)歐式空間的聚類：

基于密度的聚類方法：

兩個(gè)參數(shù)：

Eps：每個(gè)對(duì)象鄰域的半徑

MinPts 稠密區(qū)域的密度閾值，一個(gè)對(duì)象鄰域內(nèi)點(diǎn)的最小數(shù)量。

圖片: https://uploader.shimo.im/f/q0202pMDPnExujTz.png

? 核心點(diǎn)：一個(gè)數(shù)據(jù)點(diǎn)的??-鄰域中至少包含MinPts個(gè)數(shù)據(jù)點(diǎn)

? 邊界點(diǎn)：一個(gè)數(shù)據(jù)點(diǎn)的??-鄰域中包含的數(shù)據(jù)點(diǎn)的數(shù)量量少于MinPts，但是數(shù)據(jù)點(diǎn)位于某個(gè)核心點(diǎn)的??-鄰域中

噪聲點(diǎn)：既不是核心點(diǎn)，也不是邊界點(diǎn)的數(shù)據(jù)點(diǎn)

直接密度可達(dá)：對(duì)于核心點(diǎn)q和數(shù)據(jù)點(diǎn)p，p是從q直接密度可達(dá)的，如果p在q的??-鄰域內(nèi)。

密度可達(dá)：數(shù)據(jù)點(diǎn)p是從q（關(guān)于??和MinPts）密度可達(dá)的，如果存在一個(gè)對(duì)象鏈，p1, …, pn, p1 = q, pn = p ，并且對(duì)于pi ，pi+1 是從pi 直接密度可達(dá)的。圖左圖片: https://uploader.shimo.im/f/lGSKBE3mWhs0KpQT.png圖片: https://uploader.shimo.im/f/ci9RPy1pHKsA51Yi.png

密度相連：數(shù)據(jù)點(diǎn)p和q是（關(guān)于??和MinPts）密度相連的，如果存在一個(gè)數(shù)據(jù)點(diǎn)o，使得p和q都是從o（關(guān)于??和MinPts）密度可達(dá)的。

依靠與基于密度的簇的定義：一個(gè)簇是密度相連的數(shù)據(jù)點(diǎn)的最大集合

這樣的定義可以在有噪聲的空間中發(fā)現(xiàn)任意形狀的簇

DBSCAN算法：

能有效的處理理噪聲數(shù)據(jù)

? 能有效處理理不不同形狀和規(guī)模的簇

不適合同簇密度不同的數(shù)據(jù)與高維數(shù)據(jù)

去除噪聲點(diǎn)：

圖片: https://uploader.shimo.im/f/n0QbSJeaRoUm6tM5.png

聚類評(píng)估的主要任務(wù)：估計(jì)聚類趨勢(shì)，確定簇的數(shù)量，評(píng)價(jià)聚類質(zhì)量。

深度學(xué)習(xí)兩章

圖片: https://uploader.shimo.im/f/RmlzM0SAxaY9MDLq.png

? ? ? ? ? ? ? ? 圖片: https://uploader.shimo.im/f/mh10DAcZpzoDZfpM.png? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

圖片: https://uploader.shimo.im/f/6Zgj2WzbI4sBOH4K.png

通用逼近定理：神經(jīng)網(wǎng)絡(luò)能以任意精度逼近功的連續(xù)函數(shù)，即使對(duì)于只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)，這結(jié)論依然成立。

損失函數(shù)：如平方誤差SSE，交叉熵等

梯度下降圖片: https://uploader.shimo.im/f/osA2n3zBKQAOnysH.png，達(dá)到局部最小值

可采用自適應(yīng)學(xué)習(xí)率，如隨迭代次數(shù)不斷減小學(xué)習(xí)率

AdaGrad算法? 每個(gè)參數(shù)在各自維度上收斂速度不相同，根據(jù)不同收斂情況分別設(shè)置學(xué)習(xí)率，即每次迭代自適應(yīng)地調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。

反向傳播算法：利用輸出誤差估計(jì)層的直接前導(dǎo)，再其利用其估計(jì)更前一層誤差，逐反傳下去直至獲得所有其他各層的誤差估計(jì)，基于此修正權(quán)值。

收斂判定：誤差最小，一般取誤差函數(shù)局部梯度零點(diǎn)。

數(shù)據(jù)集拆分：留出法，k-折交叉驗(yàn)證

CNN三大特點(diǎn)：局部連接，權(quán)值共享，池化算法（maxpooling或meanpooling）

通過(guò)kernel近似卷積的計(jì)算，CNN具有參數(shù)更少，收斂更快，能進(jìn)行區(qū)域特征識(shí)別的優(yōu)勢(shì)。

第二部分

第一章? 多元數(shù)據(jù)的數(shù)學(xué)表達(dá)與統(tǒng)計(jì)描述

隨機(jī)變量與隨機(jī)（變量）向量參見(jiàn)隨機(jī)過(guò)程

總體期望與方差，協(xié)方差矩陣圖片: https://uploader.shimo.im/f/kpJD7RfyajUpNDxe.png

二階距存在才有方差哦

圖片: https://uploader.shimo.im/f/Ld1x5emyudEPvBlT.png

圖片: https://uploader.shimo.im/f/P09cCzkiFU4FnCpR.png

相互獨(dú)立：聯(lián)合分布等于邊緣分布乘積，密度函數(shù)同理圖片: https://uploader.shimo.im/f/HzyxJ1k35AIZzaPP.png

不相關(guān)：相關(guān)系數(shù)為0

圖片: https://uploader.shimo.im/f/M82godBiRR0ZKviY.png

圖片: https://uploader.shimo.im/f/XusevrfvKygmFPeD.png

圖片: https://uploader.shimo.im/f/TBcHGkI81Co3lrG4.png

圖片: https://uploader.shimo.im/f/YIVXbchsa5c3jGot.png

圖片: https://uploader.shimo.im/f/TOjsx1QzeTourYKA.png

圖片: https://uploader.shimo.im/f/oNQkGn5AoTMbs6iV.png

樣本協(xié)方差與樣本協(xié)方陣

圖片: https://uploader.shimo.im/f/5inoqF4EFWsRVImD.png

圖片: https://uploader.shimo.im/f/h2MxcondUtI5zIjL.png

圖片: https://uploader.shimo.im/f/fqwoaX0QoBsQ80mk.png

圖片: https://uploader.shimo.im/f/JFAcPMPwMGM8vbM8.png

數(shù)據(jù)的基本統(tǒng)計(jì)描述：

中心趨勢(shì)度量：均值、中位數(shù)、眾數(shù)、中列數(shù)

數(shù)據(jù)的散布：極差、四分位極差（Q3-Q1）、方差、標(biāo)準(zhǔn)差d

圖形化表示：盒圖（五數(shù)概括）、分位圖、直方圖、分位數(shù)分位數(shù)圖、散點(diǎn)圖

均值與加權(quán)平均：對(duì)極端值敏感，可以丟棄極端值

數(shù)據(jù)的相似性與相異性：

相異性矩陣

標(biāo)稱屬性比較：

圖片: https://uploader.shimo.im/f/6Qlj0cprdT0WqyEn.png

二元相異性：

圖片: https://uploader.shimo.im/f/liTCkUEUG84jr4bt.png距離度量：

圖片: https://uploader.shimo.im/f/qckc5tbXJa4MY9r0.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

大數(shù)據(jù)分析總結(jié)

大數(shù)據(jù)分析總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

大數(shù)據(jù)分析總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av