<數(shù)據(jù)聚類(data clustering): 用以尋找緊密相關(guān)的事、人或觀點(diǎn),并將其可視化的方法。>
- 監(jiān)督學(xué)習(xí)(supervised learning): 利用樣本輸入和期望輸出來學(xué)習(xí)如何預(yù)測的技術(shù)。包括:神經(jīng)網(wǎng)絡(luò),決策樹,向量支持機(jī),貝葉斯過濾等。利用帶有正確答案的樣本數(shù)據(jù)進(jìn)行訓(xùn)練。
- 無監(jiān)督學(xué)習(xí)(unsupervised learning): 在一組數(shù)據(jù)中找尋某種結(jié)構(gòu),而這些數(shù)據(jù)本身不是所要找的答案。如聚類。
聚類算法的數(shù)據(jù),通常應(yīng)以一組公共的數(shù)值型屬性,利用屬性對數(shù)據(jù)項(xiàng)進(jìn)行比較。
分級聚類 Hierarchical Clustering
分級聚類通過連續(xù)不斷地將最為相似的群組兩兩合并,構(gòu)造出一個(gè)群組的層級結(jié)構(gòu)。其中每個(gè)群組都是從單一元素開始的。每次迭代中,算法都會計(jì)算每兩個(gè)群組間的距離,并將距離最近(相似度)的兩個(gè)群組合并成一個(gè)新的群組(數(shù)據(jù)為兩個(gè)舊群組的數(shù)據(jù)求均值),重復(fù)迭代直至只剩一個(gè)群組。
該過程可視化表示為樹狀圖。
列聚類 Column Clustering
將數(shù)據(jù)集轉(zhuǎn)置后,再執(zhí)行聚類操作。
當(dāng)數(shù)據(jù)項(xiàng)的數(shù)量比變量多時(shí),更大概率出現(xiàn)無意義聚類,可轉(zhuǎn)置后聚類。
K-均值聚類 K-Means Clustering
分級聚類的算法計(jì)算量很大很大(每兩個(gè)匹配項(xiàng)的距離都需計(jì)算),且返回的樹形視圖不會真正將數(shù)據(jù)拆分成不同組。故采用K-均值聚類:預(yù)先告訴算法希望生成的聚類數(shù)量,算法根據(jù)數(shù)據(jù)的結(jié)構(gòu)狀況確定聚類的大小。
算法過程:先確定k個(gè)中心位置(位于空間中代表聚類中心的點(diǎn)),然后將各個(gè)數(shù)據(jù)項(xiàng)分配給最臨近的中心店,待分配完成后,聚類中心移到分配給該聚類的所有節(jié)點(diǎn)的平均位置處,然后重新開始整個(gè)分配過程。重復(fù)此過程,直至分配過程不再產(chǎn)生變化。
針對偏好的聚類
數(shù)據(jù)集取值有多種時(shí),采用皮爾遜相關(guān)度較優(yōu);但當(dāng)數(shù)據(jù)集只有兩種取值時(shí),對用戶在物品方面互有重疊的情況進(jìn)行度量,更具有意義。
Tanimoto系數(shù): 代表交集(只包含那些在兩個(gè)集合中都出現(xiàn)的項(xiàng))與并集(包含所有出現(xiàn)于任一集合中的項(xiàng))的比率。