淺析Kmeans聚類算法

kmeans用于數(shù)據(jù)挖掘,是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大
主要步驟如下:
1.從一群點中任意選擇K個點,且叫他中心點,K值就是將這群點分的類別數(shù)目
2.對余下的每一個點,分別計算它與每一個中心點的距離,得到K個距離,比較這K個距離,選擇其中最小的距離,將點與這個中心點歸為一類。
3.當所有的點都歸類后,對每一個類別重新計算其中心點,再次得到K個中心點,然后重復2步驟。

然后,開始解決以下問題:
1.只有把現(xiàn)實世界的物體的屬性抽象成向量或坐標,就可以用K-Means算法來歸類了。如何把一個實體文件抽象為一個點。在這里,用到了中文分詞和坐標、維度概念。比如說有100篇文章,對每一篇均進行分詞,從中提取關(guān)鍵字。將100篇文章的關(guān)鍵字整合并進行去重復操作,假如最終得到1000個關(guān)鍵字,暫時標記為整合關(guān)鍵字。此外,這1000個關(guān)鍵字還可抽象為1000個維度。然后將每一篇文章的關(guān)鍵字與整合關(guān)鍵字進行比對。若某個整合關(guān)鍵字在文章中出現(xiàn)了,則此篇文章在這個關(guān)鍵字處,即這個維度上可以計作1,若沒有出現(xiàn)則計作0,當一片文章中的關(guān)鍵字被比對完之后,一篇文章就被抽象為一個點,且這個點由1000個坐標組成。點的坐標除了1和0外,還可以是其他整數(shù)。由此,抽象一篇文章可以有兩種思路
(1)某個整合關(guān)鍵字只要在文章中出現(xiàn)了,就計作1,而不管這個整合關(guān)鍵字在這片文章中出現(xiàn)了幾次。因此,這種思路下的點的坐標僅由1和0組成。
(2)我們不僅要考慮某個整合關(guān)鍵字是否文章中出現(xiàn)了,還要考慮他到底出現(xiàn)了幾次。即出現(xiàn)幾次,就計作幾,這種思路下坐標,除了1和0,還有其他整數(shù)。
2.在劃分類別的時候,是如何判斷兩點之間的距離的。首先一個點由兩個坐標組成,計作(x,y),就像在二維平面中,求兩點之間的距離,d=。這種方法是最簡答,也是我們最容易想到的。
3.如何計算中心點,最簡單的,使用各個點的X/Y坐標的平均值。
4.在Kmeans算法中,需要重復計算中心點,那么具體要重復多少次才停止呢?
停止的條件有兩種
(1) 每次重復計算的中心點,與上一次計算的中心點之間總有一定的浮動范圍。因此, 我們提前給定一個中心點的浮動范圍,在兩次中心點之間的差值在這個浮動范圍里時, 我們就認定中心點已經(jīng)固定,重復計算就此結(jié)束。
(2)不論重復計算多少次,我們可以確定一點,重復計算次數(shù)越多,中心點就越精確,即每一個類別里點之間的關(guān)系就越親密。當然我們不可能進行無數(shù)次的重復計算。因此,我們根據(jù)實際情況,選擇一個合適的次數(shù)進行重復計算即可。當重復計算了限定次數(shù)的時候,就固定當前所分類的情況。
(3)其實還有第三種,就是將浮動范圍和限定次數(shù)相結(jié)合,作為兩個限定條件,只要滿足其中一個條件,重復即可停止。
5.其實,kmeans也是有缺點的,很重要的一點就是K 是事先給定的,這個 K 值的選定是非常難以估計的。很多時候,事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個類別才最合適。此時,我們就需借助其他算法來確定K值

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,039評論 25 709
  • 1. 機器學習基本概念 1.1 什么是機器學習 機器學習(Machine Learning)是一種基本數(shù)據(jù)的學習,...
    ZPPenny閱讀 4,611評論 0 10
  • 你能看到一個路人身上的閃光點,那就值得。
    風雨等故人閱讀 203評論 0 0
  • 圖片服務(wù)器存在的需求是,根據(jù)手機屏幕尺寸以及dpi的不同,將一些尺寸較大的圖片進行動態(tài)等比例縮放,最終達到不浪費屏...
    stois閱讀 2,681評論 0 5
  • 真的很遺憾,這次沒能帶著紫涵一起出來,雖然知道她以后肯定也會有機會重走這一路,可心里還是很遺憾,想讓孩子不怕挑戰(zhàn),...
    勇敢的Sandy閱讀 474評論 0 2

友情鏈接更多精彩內(nèi)容