用K-Means算法進行文本聚類

K-Means聚類算法

KMeans算法的基本思想是初始隨機給定K個簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然后按平均法重新計算各個簇的質(zhì)心,從而確定新的簇心。一直迭代,直到簇心的移動距離小于某個給定的值。

K-Means聚類算法主要分為三個步驟:

  • 第一步是為待聚類的點尋找聚類中心

  • 第二步是計算每個點到聚類中心的距離,將每個點聚類到離該點最近的聚類中去

  • 第三步是計算每個聚類中所有點的坐標平均值,并將這個平均值作為新的聚類中心
    反復執(zhí)行(2)、(3),直到聚類中心不再進行大范圍移動或者聚類次數(shù)達到要求為止

下圖展示了對n個樣本點進行K-means聚類的效果,這里k取2:
  • 未聚類的初始點集
  • 隨機選取兩個點作為聚類中心
  • 計算每個點到聚類中心的距離,并聚類到離該點最近的聚類中去
  • 計算每個聚類中所有點的坐標平均值,并將這個平均值作為新的聚類中心
  • 重復(c),計算每個點到聚類中心的距離,并聚類到離該點最近的聚類中去
  • 重復(d),計算每個聚類中所有點的坐標平均值,并將這個平均值作為新的聚類中心
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 聚類分析是我們數(shù)據(jù)挖掘中常用的算法,常常用于沒有分類,但又有相關(guān)相似性的樣本研究當中,包括了K-Means、K-中...
    大圣眾包閱讀 20,613評論 0 3
  • 算法核心邏輯是:A、指定需要把人群劃分為x個類B、算法自動把相似的人劃分到對應的類中C、得到x個類的人,每個類的人...
    波_洛閱讀 973評論 0 0
  • 1. 機器學習基本概念 1.1 什么是機器學習 機器學習(Machine Learning)是一種基本數(shù)據(jù)的學習,...
    ZPPenny閱讀 4,611評論 0 10
  • 大家早安、午安、晚安哈,繼續(xù)學習機器學習算法,接下來幾篇均是無監(jiān)督學習算法。今天首先學習K-means(K-均值)...
    keepStriving閱讀 6,399評論 0 7
  • 春天將盡時,突然刮起了一陣旋風,匍匐在池塘里的柳絮御風而起,扶搖直上。當柳絮高踞云端,看到地面上的煙囪、樓房、...
    南山散人閱讀 618評論 0 2

友情鏈接更多精彩內(nèi)容