色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

聚類分析-countries

桃子鎮(zhèn)

聚類分析-countries

聚類分析是根據(jù)事物自身的特性對被聚類對象進行類別劃分的統(tǒng)計分析方法，它的目的是根據(jù)某種相似度度量對數(shù)據(jù)集進行劃分。

目標數(shù)據(jù)文件：

smoker.xlsx? 一共6個變量

目的：根據(jù)該數(shù)據(jù)中的變量特征進行聚類。

方法一：基于python在spyder中實現(xiàn)。

代碼如下：

代碼寫到這，進行了導(dǎo)入數(shù)據(jù)、查看數(shù)據(jù)、清洗數(shù)據(jù)（數(shù)據(jù)類型變更、去缺失值）。

清洗完數(shù)據(jù)之后，篩選出不同年份的數(shù)據(jù)放入新的數(shù)據(jù)框，并對這些數(shù)據(jù)進行相關(guān)分析corr()

相關(guān)分析之后發(fā)現(xiàn)，這兩個數(shù)值型變量“成年人吸煙占比”和“人均GDP (單位：國際元)”呈低度相關(guān)，決定根據(jù)這兩個變量的變量特征進行聚類。

提取最近年份2016年的數(shù)據(jù)中的“成年人吸煙占比”和“人均GDP (單位：國際元)”放入nin數(shù)據(jù)框中，但是nin數(shù)據(jù)框中 “成年人吸煙占比”和“人均GDP (單位：國際元)”的數(shù)據(jù)差距太大，不在一個量綱，所以要進行數(shù)據(jù)標準化。

沒有進行標準化之前的數(shù)據(jù)

進行標準化之后的數(shù)據(jù)

數(shù)據(jù)標準化之后，導(dǎo)入KMeans模塊進行分類，分成了三類，并把分類標簽添加進nin數(shù)據(jù)框中，再做散點圖。

散點圖

分類后導(dǎo)入輪廓系數(shù)評分模塊metrics查看評分：0.4466479445680197。

評分越接近1，效果越好！

懷疑是不是分類出問題，肘部法則看一下。

坡度趨于平緩的位置就是分類的數(shù)量，上圖中肘部法則建議分三類。

導(dǎo)出中心距離數(shù)據(jù)：

第一類：吸煙占比和其他兩類有明顯差異，比較高；

第二類：人均GDP和其他兩類有明顯差異，特別高；

第三類：吸煙占比、人均GDP和其他兩類有明顯差異，比較低。

聚類完成后，分析各分類對象的特征：

查看三個類別的數(shù)量

從代碼中可以nine數(shù)據(jù)框中的數(shù)據(jù)是2016年的原始數(shù)據(jù)，此次聚類的數(shù)據(jù)就是2016的數(shù)據(jù)，所以在nine數(shù)據(jù)框中添加分類標簽并導(dǎo)出為sk.csv.

在excel中對sk.csv中各類別數(shù)據(jù)進行描述性統(tǒng)計：

第一類

第一類，有61個國家，平均成年人吸煙占比接近30，人均GDP為中等水平。

第二類

第二類，有29個國家，平均成年人吸煙占比為21.5，在這三類國家里為中等，但是這一類國家的人均GDP較高。

第三類國家

第三類，有52個國家，平均成年人吸煙占比為12.3較低，人均GDP較低。

我覺得這個分類不夠細，決定用第二種方法進行聚類

方法二：基于spss進行聚類分析。

一、k-means均值聚類（省略了步驟，只呈現(xiàn)結(jié)果）

頻率（個數(shù)）表

描述統(tǒng)計表

發(fā)現(xiàn)spss均值聚類結(jié)果和python聚類分析結(jié)果幾乎一樣。

二、系統(tǒng)聚類（省略了步驟，只呈現(xiàn)結(jié)果）

系統(tǒng)聚類最大分四類，最少分三類

分三類頻率表

描述統(tǒng)計表

驚訝的發(fā)現(xiàn)系統(tǒng)聚類分三類變得更模糊了。

分四類頻率表

描述統(tǒng)計表

驚喜的系統(tǒng)聚類分四類：

第一類：只有2個國家，根據(jù)吸煙占比和人均GDP，發(fā)現(xiàn)這是兩個富有的國家；

第二類：有81個國家，根據(jù)根據(jù)吸煙占比和人均GDP，發(fā)現(xiàn)包含了發(fā)達國家和發(fā)展中國家；

第三類：有42個國家，根據(jù)根據(jù)吸煙占比和人均GDP，發(fā)現(xiàn)包含了欠發(fā)展的國家；

第四類：有17個國家，根據(jù)根據(jù)吸煙占比和人均GDP，發(fā)現(xiàn)包含了較發(fā)達的國家。

在日常工作中，選擇哪一個聚類結(jié)果要結(jié)合我們的業(yè)務(wù)場景，這就是我常用的聚類分析方法，OVER！

看過的點個贊鴨！

最后編輯于：2023.06.12 14:23:08

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

禁止轉(zhuǎn)載，如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

因子分析后如何進行聚類分析？
一、案例說明 1.案例背景研究短視頻平臺用戶行為的分類情況，調(diào)查搜集了200份數(shù)據(jù)其中20項可分為品牌活動，品牌...
spssau閱讀 5,084評論 0贊 4
一文總結(jié)聚類分析步驟！
一、聚類 1.準備工作（1）研究目的聚類分析是根據(jù)事物本身的特性研究個體分類的方法，聚類分析的原則是同一類別...
spssau閱讀 1,626評論 0贊 3

聚類分析思路分享，如何完成用戶細分？
聚類分析廣泛用于市場研究、管理研究中，用于對個體細分，或?qū)Ρ染垲惡蟛煌瑯颖静町悺１疚慕o大家簡單梳理下聚類分析的分析...
spssau閱讀 1,291評論 0贊 7
基于RFM模型的客戶分群和K-Means聚類分析
項目描述數(shù)據(jù)源是來自Kaggle的一個跨國數(shù)據(jù)集，其中包含2010年12月12日至2011年12月9日期間發(fā)生的...
Mukee閱讀 7,721評論 3贊 20
2016年廣西各市第一、二、三產(chǎn)業(yè)分布情況【聚類分析】
2016年廣西各市第一、二、三產(chǎn)業(yè)分布情況數(shù)據(jù)來源：國家統(tǒng)計局代碼實現(xiàn)如下：數(shù)據(jù)處理描述統(tǒng)計聚類分析條...
宴長閱讀 3,726評論 0贊 2

友情鏈接更多精彩內(nèi)容

1贊2贊

贊賞

手機看全文

大悟县| 伊吾县| 元阳县| 云林县| 五家渠市| 赫章县| 宜州市| 宁远县| 乾安县| 纳雍县| 沙田区| 谷城县| 朔州市| 永丰县| 恩施市| 崇信县| 图木舒克市| 香格里拉县| 正安县| 贵阳市| 昭平县| 固镇县| 泰安市| 望江县| 海原县| 兰州市| 冀州市| 丹棱县| 顺昌县| 岫岩| 巧家县| 光泽县| 资阳市| 合水县| 运城市| 黑山县| 平安县| 西吉县| 肃南| 南江县| 金门县|

<samp id="wy8aa"><tbody id="wy8aa"></tbody></samp>