K-Means介紹

K-means算法是聚類分析中使用最廣泛的算法之一。它把n個對象根據(jù)他們的屬性分為k個聚類以便使得所獲得的聚類滿足：同一聚類中的對象相似度較高；而不同聚類中的對象相似度較小。其聚類過程可以用下圖表示：

如圖所示，數(shù)據(jù)樣本用圓點表示，每個簇的中心點用叉叉表示。(a)剛開始時是原始數(shù)據(jù)，雜亂無章，沒有l(wèi)abel，看起來都一樣，都是綠色的。(b)假設(shè)數(shù)據(jù)集可以分為兩類，令K=2，隨機(jī)在坐標(biāo)上選兩個點，作為兩個類的中心點。(c-f)演示了聚類的兩種迭代。先劃分，把每個數(shù)據(jù)樣本劃分到最近的中心點那一簇；劃分完后，更新每個簇的中心，即把該簇的所有數(shù)據(jù)點的坐標(biāo)加起來去平均值。這樣不斷進(jìn)行”劃分—更新—劃分—更新”，直到每個簇的中心不在移動為止。

該算法過程比較簡單，但有些東西我們還是需要關(guān)注一下，此處，我想說一下"求點中心的算法"

一般來說，求點群中心點的算法你可以很簡的使用各個點的X/Y坐標(biāo)的平均值。也可以用另三個求中心點的的公式：

1）Minkowski Distance 公式 ——λ 可以隨意取值，可以是負(fù)數(shù)，也可以是正數(shù)，或是無窮大。

2）Euclidean Distance 公式—— 也就是第一個公式 λ=2 的情況

3）CityBlock Distance 公式—— 也就是第一個公式 λ=1 的情況

這三個公式的求中心點有一些不一樣的地方，我們看下圖（對于第一個 λ 在 0-1之間）。

（1）Minkowski Distance （2）Euclidean Distance （3）CityBlock Distance

上面這幾個圖的大意是他們是怎么個逼近中心的，第一個圖以星形的方式，第二個圖以同心圓的方式，第三個圖以菱形的方式。

Kmeans算法的缺陷

聚類中心的個數(shù)K 需要事先給定，但在實際中這個 K 值的選定是非常難以估計的，很多時候，事先并不知道給定的數(shù)據(jù)集應(yīng)該分成多少個類別才最合適

Kmeans需要人為地確定初始聚類中心，不同的初始聚類中心可能導(dǎo)致完全不同的聚類結(jié)果。（可以使用Kmeans++算法來解決）

針對上述第2個缺陷，可以使用Kmeans++算法來解決

K-Means ++ 算法

k-means++算法選擇初始seeds的基本思想就是：初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)。

從輸入的數(shù)據(jù)點集合中隨機(jī)選擇一個點作為第一個聚類中心

對于數(shù)據(jù)集中的每一個點x，計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)

選擇一個新的數(shù)據(jù)點作為新的聚類中心，選擇的原則是：D(x)較大的點，被選取作為聚類中心的概率較大

重復(fù)2和3直到k個聚類中心被選出來

利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means算法

從上面的算法描述上可以看到，算法的關(guān)鍵是第3步，如何將D(x)反映到點被選擇的概率上，一種算法如下：

先從我們的數(shù)據(jù)庫隨機(jī)挑個隨機(jī)點當(dāng)“種子點”

對于每個點，我們都計算其和最近的一個“種子點”的距離D(x)并保存在一個數(shù)組里，然后把這些距離加起來得到Sum(D(x))。

然后，再取一個隨機(jī)值，用權(quán)重的方式來取計算下一個“種子點”。這個算法的實現(xiàn)是，先取一個能落在Sum(D(x))中的隨機(jī)值Random，然后用Random -= D(x)，直到其<=0，此時的點就是下一個“種子點”。

重復(fù)2和3直到k個聚類中心被選出來

利用這k個初始的聚類中心來運(yùn)行標(biāo)準(zhǔn)的k-means算法

可以看到算法的第三步選取新中心的方法，這樣就能保證距離D(x)較大的點，會被選出來作為聚類中心了。至于為什么原因比較簡單，如下圖所示：

假設(shè)A、B、C、D的D(x)如上圖所示，當(dāng)算法取值Sum(D(x))*random時，該值會以較大的概率落入D(x)較大的區(qū)間內(nèi)，所以對應(yīng)的點會以較大的概率被選中作為新的聚類中心。

k-means++代碼：http://rosettacode.org/wiki/K-means%2B%2B_clustering

KNN(K-Nearest Neighbor)介紹

算法思路：如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

看下面這幅圖：

KNN的算法過程是是這樣的：

從上圖中我們可以看到，圖中的數(shù)據(jù)集是良好的數(shù)據(jù)，即都打好了label，一類是藍(lán)色的正方形，一類是紅色的三角形，那個綠色的圓形是我們待分類的數(shù)據(jù)。

如果K=3，那么離綠色點最近的有2個紅色三角形和1個藍(lán)色的正方形，這3個點投票，于是綠色的這個待分類點屬于紅色的三角形

如果K=5，那么離綠色點最近的有2個紅色三角形和3個藍(lán)色的正方形，這5個點投票，于是綠色的這個待分類點屬于藍(lán)色的正方形

我們可以看到，KNN本質(zhì)是基于一種數(shù)據(jù)統(tǒng)計的方法！其實很多機(jī)器學(xué)習(xí)算法也是基于數(shù)據(jù)統(tǒng)計的。

KNN是一種memory-based learning，也叫instance-based learning，屬于lazy learning。即它沒有明顯的前期訓(xùn)練過程，而是程序開始運(yùn)行時，把數(shù)據(jù)集加載到內(nèi)存后，不需要進(jìn)行訓(xùn)練，就可以開始分類了。

具體是每次來一個未知的樣本點，就在附近找K個最近的點進(jìn)行投票。

再舉一個例子，Locally weighted regression (LWR)也是一種 memory-based 方法，如下圖所示的數(shù)據(jù)集。

用任何一條直線來模擬這個數(shù)據(jù)集都是不行的，因為這個數(shù)據(jù)集看起來不像是一條直線。但是每個局部范圍內(nèi)的數(shù)據(jù)點，可以認(rèn)為在一條直線上。每次來了一個位置樣本x，我們在X軸上以該數(shù)據(jù)樣本為中心，左右各找?guī)讉€點，把這幾個樣本點進(jìn)行線性回歸，算出一條局部的直線，然后把位置樣本x代入這條直線，就算出了對應(yīng)的y，完成了一次線性回歸。也就是每次來一個數(shù)據(jù)點，都要訓(xùn)練一條局部直線，也即訓(xùn)練一次，就用一次。LWR和KNN很相似，都是為位置數(shù)據(jù)量身定制，在局部進(jìn)行訓(xùn)練。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Kmeans、Kmeans++和KNN算法比較

Kmeans、Kmeans++和KNN算法比較

K-Means介紹

K-Means ++ 算法

KNN(K-Nearest Neighbor)介紹

KNN和K-Means的區(qū)別

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Kmeans、Kmeans++和KNN算法比較

K-Means介紹

K-Means ++ 算法

KNN(K-Nearest Neighbor)介紹

KNN和K-Means的區(qū)別

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Kmeans、Kmeans++和KNN算法比較