無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)
利用無(wú)標(biāo)簽的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的分布或數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系被稱作無(wú)監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的最大區(qū)別就在于數(shù)據(jù)是否有標(biāo)簽
無(wú)監(jiān)督學(xué)習(xí)最常應(yīng)用的場(chǎng)景是聚類(clustering)和降維(Dimension reduction)
聚類是根據(jù)數(shù)據(jù)相似性間數(shù)據(jù)分為多類的過(guò)程。
評(píng)估兩個(gè)不同樣本之間的“相似性”,通常使用的方法就是計(jì)算兩個(gè)樣本之間的“距離”,
使用不同的方法計(jì)算樣本見(jiàn)得距離會(huì)關(guān)系到聚類結(jié)果的好壞。
常用方法
歐氏距離:最常用的距離度量方法,源于歐式空間中兩點(diǎn)的距離

曼哈頓距離:城市街區(qū)距離,類似于在城市之中駕車行駛,從一個(gè)十字路口到另一個(gè)十字路口的距離。其計(jì)算方法如下:

馬氏距離表示數(shù)據(jù)協(xié)方差距離,是一種尺度無(wú)關(guān)的度量放肆,也就是說(shuō),馬氏距離會(huì)先將樣本點(diǎn)的各個(gè)屬性標(biāo)準(zhǔn)化,再計(jì)算樣本之間的距離。其計(jì)算方式如下:

夾角余弦
余弦相似度用向量空間中兩個(gè)兩個(gè)向量夾腳的余弦值作為衡量?jī)蓚€(gè)樣本差異的大小。
余弦值越接近為1,說(shuō)明兩個(gè)響亮夾角越接近零度,表明兩個(gè)向量越相似。
其計(jì)算方法如下:

sklearn vs 聚類
scikit聚類和分類都是無(wú)監(jiān)督學(xué)習(xí)
scikit_learn庫(kù)(簡(jiǎn)稱sklearn庫(kù))提供常用的聚類算法函數(shù)包含在sklearn.cluster這模塊中,如:K_Means,近鄰傳播算法,DBSCAN,等。
以同樣的數(shù)據(jù)集應(yīng)用于不同的算法可能會(huì)得到不同的結(jié)果,算法所消耗的時(shí)間也不盡相同,這是由算法特性決定的。
sklearn.cluster模塊提供的各聚類算法函數(shù)可以使用不同的數(shù)據(jù)形式作為輸入:
標(biāo)準(zhǔn)數(shù)據(jù)輸入格式:[樣本數(shù)目,特征數(shù)目]定義的矩陣形式,矩陣中的每一個(gè)元素為兩個(gè)樣本的相似度,如DBSCAN , AffinityPropagation(近鄰傳播算法)接受這種輸入。如果以余弦相似度為例,對(duì)角線元素全為1,矩陣中每個(gè)元素的取值范圍為【0,1】

sklearn.cluster
算法名稱 參數(shù) 可擴(kuò)展性 相似度度量
K-means 聚類個(gè)數(shù) 大數(shù)據(jù)規(guī)模 點(diǎn)間距離
DBSCAN 鄰域大小 大規(guī)模數(shù)據(jù) 點(diǎn)間距離
Gaussian聚類個(gè)數(shù)及其他超參 復(fù)雜度高,不適合處理大規(guī)模數(shù)據(jù) 馬氏距離
MIixtures
Birth 分支因子,閾值等其他超參 大規(guī)模數(shù)據(jù) 兩點(diǎn)之間的歐式距離
降維,降維就是在保證數(shù)據(jù)具有的帶百姓特性或者分布的情況下,將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過(guò)程:
數(shù)據(jù)可視化
精簡(jiǎn)數(shù)據(jù)
聚類和降維都是無(wú)監(jiān)督學(xué)習(xí)的典型任務(wù),任務(wù)之間存在著關(guān)聯(lián),比如某些高位數(shù)據(jù)的聚類可以通過(guò)降維處理更好的獲得,另外學(xué)界研究也表明代表性的聚類算法如K-means與降維算法之間存在等價(jià)性。
降維是機(jī)器學(xué)習(xí)靈位的一個(gè)重要研究?jī)?nèi)容,有很多北工業(yè)界和學(xué)術(shù)界接受的典型算法,截止到目前sklearn庫(kù)提供7種降維算法。
將為過(guò)程中也可以被理解為對(duì)數(shù)據(jù)集的組成成分進(jìn)行分解的過(guò)程,因此sklearn庫(kù)為降維模快命名為decomposition ,在對(duì)降維算法調(diào)用需要使用sklearn.decompositon??臁?/p>

算法名稱 參數(shù)可擴(kuò)展性 適用任務(wù)
PCA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 信號(hào)處理
FastICA 所降維度及其他超參 超大規(guī)模數(shù)據(jù) 圖形圖像特征提取
NMF 所降維度及其他超參 大規(guī)模數(shù)據(jù) 圖形圖像特征提取
LDA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 文本數(shù)據(jù),主題挖掘
哪些是降維任務(wù)哪些是聚類任務(wù)?
31省市居民家庭消費(fèi)情況調(diào)查表
學(xué)生月上網(wǎng)時(shí)間分布調(diào)查表
人臉圖像特征抽取