Some references
- http://www.52nlp.cn/2012/04
- https://github.com/Computing-Intelligence/References
- http://web.stanford.edu/class/cs224n/
- https://study.163.com/course/courseLearn.htm?courseId=1004570029#/learn/video?lessonId=1052316982&courseId=1004570029
1 吳恩達(dá)ML
Clustering

image.png
K-Means (usually two steps in each inner loop)

image.png
First step: Cluster assignments steps
Next: move cluster centroid to where close to the average of other dots

image.png
Optimization objective

image.png

distortion function
Random Initialization

隨機(jī)選點

容易陷入局部最優(yōu) 所以要多次kmeans

K值較小時random可以更好的最小化畸變函數(shù)而比較好地聚類
Choosing the number of K
更多的時候是自己設(shè)置,there isnt always a good answer

elbow并不常用

image.png
2. 北理工ML
主題模型

發(fā)展歷程

image.png
MK矩陣:每個詞w 在 m行文檔K列主題 的分布矩陣

image.png

吉布斯采樣
3. 周志華ML
聚類
- 聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個通常是不相交的子集,每個子集 稱為一個"簇" (cluster). 聚類過程僅能自動形成簇結(jié)構(gòu),簇所對應(yīng)的概念語義需由使用者來把握和命名.
- 性能度量:聚類結(jié)果的"簇內(nèi)相似 度" (intra-cluster similarity)高且"簇間相似度" (inter-cluster similarity)低. 聚類性能度量大致有兩類. 一類是將聚類結(jié)果與某個"參考模 型" (reference model)進(jìn)行比較,稱為"外部指標(biāo)" (external i丑dex); 另一 類是直接考察聚類結(jié)果而不利用任何參考模型,稱為"內(nèi)部指標(biāo)" (internal index).
Prototype-based clustering
K-means