- 非監(jiān)督學(xué)習(xí)
- 定義:訓(xùn)練數(shù)據(jù)無(wú)類。
- 包括:類簇 (訓(xùn)練數(shù)據(jù)能分成某些組,例如:市場(chǎng)分割,社交網(wǎng)絡(luò)分析,基因檢測(cè)); 異常檢測(cè)(訓(xùn)練數(shù)據(jù)中,一些值不能歸于期待的模型)
- Clustering 算法
- partitioning methods(分開算法,基于中心分簇);例如:找出球形的相互獨(dú)立的簇;基于距離;k-means
- 基于關(guān)聯(lián)性的方法;例如:自上而下;自下而上
- 基于密度的方法;例如:密度模型DBSCAN
- 基于網(wǎng)格的方法;例如:使用多分辨率網(wǎng)格數(shù)據(jù)結(jié)構(gòu)
- 基于分布的方法;例如:Expectation-maximization算法
- K-means
- 定義:將數(shù)據(jù)分成K組,而每個(gè)簇都由簇中心點(diǎn)的距離有關(guān)
-
步驟: (1)選出k個(gè)點(diǎn),作為均值中心點(diǎn);(2)每個(gè)點(diǎn)的歸簇問題由與中心最近的距離決定; (3)更新下最新的均值中心點(diǎn);(4) 重復(fù)以上步驟。
image.png -
K-mean缺點(diǎn):(1) k的確定需要提前決定
(2)均值中心點(diǎn)的初始化很重要,選不好,就很容易產(chǎn)生不好的結(jié)果; (3) 只能解決數(shù)字化問題,例如性別,國(guó)家等類別,需要預(yù)先用數(shù)字表示;(4)在本地最小點(diǎn),算法會(huì)停滯,即不收斂
image.png
image.png
(5)很容易受異常點(diǎn)和噪聲影響,導(dǎo)致不準(zhǔn)確分割
(6)不能用于球形的簇分割,或者不同密度和尺寸的簇
- 如何選擇k值
- 法1:根據(jù)分割結(jié)果,來調(diào)整k值
- 法2: elbow法,即嘗試不同的k值,逐步增加k值,然后觀察到均值中心點(diǎn)的平均距離變化;理想下,均值距離初期快速下降,后期緩慢下降;
-總的來說,目前很難找到elbow點(diǎn),實(shí)際應(yīng)用中,不用elbow法來找k值。


