聚類分析-countries

聚類分析是根據(jù)事物自身的特性對被聚類對象進行類別劃分的統(tǒng)計分析方法,它的目的是根據(jù)某種相似度度量對數(shù)據(jù)集進行劃分。

目標數(shù)據(jù)文件:

smoker.xlsx? 一共6個變量

目的:根據(jù)該數(shù)據(jù)中的變量特征進行聚類。


方法一:基于python在spyder中實現(xiàn)。

代碼如下:

代碼寫到這,進行了導(dǎo)入數(shù)據(jù)、查看數(shù)據(jù)、清洗數(shù)據(jù)(數(shù)據(jù)類型變更、去缺失值)。

清洗完數(shù)據(jù)之后,篩選出不同年份的數(shù)據(jù)放入新的數(shù)據(jù)框,并對這些數(shù)據(jù)進行相關(guān)分析corr()

相關(guān)分析之后發(fā)現(xiàn),這兩個數(shù)值型變量“成年人吸煙占比”和“人均GDP (單位:國際元)”呈低度相關(guān),決定根據(jù)這兩個變量的變量特征進行聚類。

提取最近年份2016年的數(shù)據(jù)中的“成年人吸煙占比”和“人均GDP (單位:國際元)”放入nin數(shù)據(jù)框中,但是nin數(shù)據(jù)框中 “成年人吸煙占比”和“人均GDP (單位:國際元)”的數(shù)據(jù)差距太大,不在一個量綱,所以要進行數(shù)據(jù)標準化。

沒有進行標準化之前的數(shù)據(jù)
進行標準化之后的數(shù)據(jù)


數(shù)據(jù)標準化之后,導(dǎo)入KMeans模塊進行分類,分成了三類,并把分類標簽添加進nin數(shù)據(jù)框中,再做散點圖。

散點圖

分類后導(dǎo)入輪廓系數(shù)評分模塊metrics查看評分:0.4466479445680197。

評分越接近1,效果越好!

懷疑是不是分類出問題,肘部法則看一下。

坡度趨于平緩的位置就是分類的數(shù)量,上圖中肘部法則建議分三類。

導(dǎo)出中心距離數(shù)據(jù):

第一類:吸煙占比和其他兩類有明顯差異,比較高;

第二類:人均GDP和其他兩類有明顯差異,特別高;

第三類:吸煙占比、人均GDP和其他兩類有明顯差異,比較低。

聚類完成后,分析各分類對象的特征:

查看三個類別的數(shù)量

從代碼中可以nine數(shù)據(jù)框中的數(shù)據(jù)是2016年的原始數(shù)據(jù),此次聚類的數(shù)據(jù)就是2016的數(shù)據(jù),所以在nine數(shù)據(jù)框中添加分類標簽并導(dǎo)出為sk.csv.

在excel中對sk.csv中各類別數(shù)據(jù)進行描述性統(tǒng)計:

第一類

第一類,有61個國家,平均成年人吸煙占比接近30,人均GDP為中等水平。


第二類

第二類,有29個國家,平均成年人吸煙占比為21.5,在這三類國家里為中等,但是這一類國家的人均GDP較高。


第三類國家

第三類,有52個國家,平均成年人吸煙占比為12.3較低,人均GDP較低。




我覺得這個分類不夠細,決定用第二種方法進行聚類

方法二:基于spss進行聚類分析。

一、k-means均值聚類(省略了步驟,只呈現(xiàn)結(jié)果)

頻率(個數(shù))表
描述統(tǒng)計表

發(fā)現(xiàn)spss均值聚類結(jié)果和python聚類分析結(jié)果幾乎一樣。

二、系統(tǒng)聚類(省略了步驟,只呈現(xiàn)結(jié)果)

系統(tǒng)聚類最大分四類,最少分三類

分三類頻率表
描述統(tǒng)計表

驚訝的發(fā)現(xiàn)系統(tǒng)聚類分三類變得更模糊了。

分四類頻率表
描述統(tǒng)計表

驚喜的系統(tǒng)聚類分四類:

第一類:只有2個國家,根據(jù)吸煙占比和人均GDP,發(fā)現(xiàn)這是兩個富有的國家;

第二類:有81個國家,根據(jù)根據(jù)吸煙占比和人均GDP,發(fā)現(xiàn)包含了發(fā)達國家和發(fā)展中國家;

第三類:有42個國家,根據(jù)根據(jù)吸煙占比和人均GDP,發(fā)現(xiàn)包含了欠發(fā)展的國家;

第四類:有17個國家,根據(jù)根據(jù)吸煙占比和人均GDP,發(fā)現(xiàn)包含了較發(fā)達的國家。



在日常工作中,選擇哪一個聚類結(jié)果要結(jié)合我們的業(yè)務(wù)場景,這就是我常用的聚類分析方法,OVER!


看過的點個贊鴨!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容