聚類

1.在無監(jiān)督學(xué)習(xí)(unsupervised learning)中,訓(xùn)練樣本的標(biāo)記信息是未知的。

2.無監(jiān)督學(xué)習(xí)的目標(biāo):通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭露數(shù)據(jù)的內(nèi)在性質(zhì)以及規(guī)律。

3.一個經(jīng)典的無監(jiān)督學(xué)習(xí)任務(wù):尋找數(shù)據(jù)的最佳表達(dá)(representation)。常見的有:

????????低維表達(dá):試圖將數(shù)據(jù)(位于高維空間)中的信息盡可能壓縮在一個較低維空間中。

????????稀疏表達(dá):將數(shù)據(jù)嵌入到大多數(shù)項為零的一個表達(dá)中。該策略通常需要進(jìn)行維度擴(kuò)張。

????????獨立表達(dá):使數(shù)據(jù)的各個特征相互獨立。

4.無監(jiān)督學(xué)習(xí)應(yīng)用最廣的是聚類(clustering)?。

5.聚類的作用:

????????可以作為一個單獨的過程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)。

????????也可以作為其他學(xué)習(xí)任務(wù)的前驅(qū)過程。如對數(shù)據(jù)先進(jìn)行聚類,然后對每個簇單獨訓(xùn)練模型。

6.聚類問題本身是病態(tài)的。即:沒有某個標(biāo)準(zhǔn)來衡量聚類的效果。

????????可以簡單的度量聚類的性質(zhì),如每個聚類的元素到該類中心點的平均距離。

????????但是實際上不知道這個平均距離對應(yīng)于真實世界的物理意義。

? ? ? ? 可能很多不同的聚類都很好地對應(yīng)了現(xiàn)實世界的某些屬性,它們都是合理的。

? ? ? ? 如:在圖片識別中包含的圖片有:紅色卡車、紅色汽車、灰色卡車、灰色汽車??梢跃垲惓桑杭t色一類、灰色一類;也可以聚類成:卡車一類、汽車一類。


原型聚類

? ? ? ? 原型聚類prototype-based clustering假設(shè)聚類結(jié)構(gòu)能通過一組原型刻畫。

? ? ? ? 常用的原型聚類有:

? ? ? ? ? ? ? ? 1.k均值算法k-means。

? ? ? ? ? ? ? ? 2.學(xué)習(xí)向量量化算法Learning Vector Quantization:LVQ。

? ? ? ? ? ? ? ? 3.高斯混合聚類Mixture-of-Gaussian。

密度聚類

? ? 1.密度聚類density-based clustering假設(shè)聚類結(jié)構(gòu)能夠通過樣本分布的緊密程度確定。

? ? 2.密度聚類算法從樣本的密度的角度來考察樣本之間的可連接性,并基于可連接樣本的不斷擴(kuò)張聚類簇,從而獲得最終的聚類結(jié)果。

層次聚類

? ? 層次聚類hierarchical clustering 試圖在不同層次上對數(shù)據(jù)集進(jìn)行劃分,從而形成樹形的聚類結(jié)構(gòu)。


k-means 算法

定義

1.????給定樣本集D =  {\vec{x} _{1},\vec{x} _{2},.....,\vec{x} _{N} },假設(shè)一個劃分為C = {C_{1},C_{2},...,C_{K} }

????????定義該劃分的平方誤差為:?

? ??????????????????????????????err = \sum_{k=1}^K \sum_{\vec{x} _{i}\in C_{k}  }^K||\vec{x} _{i} - \vec\mu_{k}||_{2}^2

? ? ? ? 其中\vec{\mu _{k} } = \frac{1}{C_{k} }\sum\vec{x} _{i}C_{k} 簇的均值向量。

? ??????err刻畫了簇類樣本圍繞簇均值向量的緊密程度,其值越小,則簇內(nèi)樣本相似度越高

? ??????k-means 算法的優(yōu)化目標(biāo)為:最小化 err

2.k-means?的優(yōu)化目標(biāo)需要考察D的所有可能的劃分,這是一個NP難的問題。實際上k-means?采用貪心策略,通過迭代優(yōu)化來近似求解。

? ? ? ? 首先假設(shè)一組均值向量。

????????然后根據(jù)假設(shè)的均值向量給出了D的一個劃分。

????????再根據(jù)這個劃分來計算真實的均值向量:

????????如果真實的均值向量等于假設(shè)的均值向量,則說明假設(shè)正確。根據(jù)假設(shè)均值向量給出的D一個劃分確實是原問題的解。

????????如果真實的均值向量不等于假設(shè)的均值向量,則可以將真實的均值向量作為新的假設(shè)均值向量,繼續(xù)迭代求解。

3.這里的一個關(guān)鍵就是:給定一組假設(shè)的均值向量,如何計算出??的一個簇劃分?

????????k均值算法的策略是:樣本離哪個簇的均值向量最近,則該樣本就劃歸到那個簇

優(yōu)點

????????1.計算復(fù)雜度低,為O(N*K*q)? ,其中q為迭代次數(shù)。

????????????通常 K和q要遠(yuǎn)遠(yuǎn)小于 N,此時復(fù)雜度相當(dāng)于O(N) 。

????????2.思想簡單,容易實現(xiàn)。

缺點

? ? ? ? 1.需要首先確定聚類的數(shù)量 K 。

????????2.分類結(jié)果嚴(yán)重依賴于分類中心的初始化。

? ? ? ? 3.通常進(jìn)行多次k-means,然后選擇最優(yōu)的那次作為最終聚類結(jié)果。

? ? ? ? 4.結(jié)果不一定是全局最優(yōu)的,只能保證局部最優(yōu)。

????????5.對噪聲敏感。因為簇的中心是取平均,因此聚類簇很遠(yuǎn)地方的噪音會導(dǎo)致簇的中心點偏移。

? ? ? ? 6.無法解決不規(guī)則形狀的聚類。

????????7.無法處理離散特征,如:國籍、性別?等。

性質(zhì)

? ? ? ? 1. k-means?實際上假設(shè)數(shù)據(jù)是呈現(xiàn)球形分布,實際任務(wù)中很少有這種情況。

? ? ? ? 2.與之相比,GMM?使用更加一般的數(shù)據(jù)表示,即高斯分布。

? ? ? ? 3.k-means?假設(shè)各個簇的先驗概率相同,但是各個簇的數(shù)據(jù)量可能不均勻。

? ? ? ? 4.k-means?使用歐式距離來衡量樣本與各個簇的相似度。這種距離實際上假設(shè)數(shù)據(jù)的各個維度對于相似度的作用是相同的。

? ? ? ? 5.k-means?中,各個樣本點只屬于與其相似度最高的那個簇,這實際上是分簇。


sklearn中的k-means

1.隨機(jī)創(chuàng)建一些二維數(shù)據(jù)作為訓(xùn)練集,選擇二維特征數(shù)據(jù),主要是方便可視化

2.分別分為2,3,4簇的,查看聚類效果

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 錯誤往往是很多種快樂的起因。 小李飛刀系列的完結(jié)篇,但其篇幅之短,幾乎可以看做是番外。同時,劇情的跳躍程度讓我懷疑...
    更欣閱讀 915評論 0 19
  • 已經(jīng)是立夏時分,蟬鳴聲喧騰不止,宛若某種遠(yuǎn)古時的呼喚,大片大片地降臨在不知白天黑夜為何物的人們肩上,從白日的光污染...
    原子氧閱讀 623評論 0 0
  • 今天讀了本書第二章——讀書和發(fā)表。富蘭克林講述了自己學(xué)徒期間出版報紙的經(jīng)歷,這和《寫作這回事:創(chuàng)作生涯回憶錄》的作...
    時光琥珀啊閱讀 83評論 0 0
  • 格局不同,則表現(xiàn)不同的主動或被動。 積極主動,還是杞人憂天,如果轉(zhuǎn)變,全在一心。
    堇行_90f1閱讀 182評論 0 0
  • 暮鼓晨鐘閱讀 346評論 0 0

友情鏈接更多精彩內(nèi)容