關(guān)于無監(jiān)督、聚類和主題模型

Some references

1 吳恩達(dá)ML

Clustering

image.png

K-Means (usually two steps in each inner loop)

image.png

First step: Cluster assignments steps
Next: move cluster centroid to where close to the average of other dots

image.png

Optimization objective
image.png

distortion function

Random Initialization

隨機(jī)選點

容易陷入局部最優(yōu) 所以要多次kmeans

K值較小時random可以更好的最小化畸變函數(shù)而比較好地聚類

Choosing the number of K
更多的時候是自己設(shè)置,there isnt always a good answer

elbow并不常用

image.png

2. 北理工ML

主題模型

發(fā)展歷程

image.png

MK矩陣:每個詞w 在 m行文檔K列主題 的分布矩陣
image.png

吉布斯采樣

3. 周志華ML

聚類

  • 聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為一個"簇" (cluster). 聚類過程僅能自動形成簇結(jié)構(gòu),簇所對應(yīng)的概念語義需由使用者來把握和命名.
  • 性能度量:聚類結(jié)果的"簇內(nèi)相似 度" (intra-cluster similarity)高且"簇間相似度" (inter-cluster similarity)低. 聚類性能度量大致有兩類. 一類是將聚類結(jié)果與某個"參考模 型" (reference model)進(jìn)行比較,稱為"外部指標(biāo)" (external i丑dex); 另一 類是直接考察聚類結(jié)果而不利用任何參考模型,稱為"內(nèi)部指標(biāo)" (internal index).

Prototype-based clustering

K-means


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容