python數(shù)據(jù)分析-聚類分析(轉(zhuǎn)載)

聚類分析是一類將數(shù)據(jù)所對(duì)應(yīng)的研究對(duì)象進(jìn)行分類的統(tǒng)計(jì)方法。這一類方法的共同特點(diǎn)是,事先不知道類別的個(gè)數(shù)與結(jié)構(gòu);進(jìn)行分析的數(shù)據(jù)是表明對(duì)象之間的相似性或相異性的數(shù)據(jù),將這些數(shù)據(jù)看成對(duì)對(duì)象“距離”遠(yuǎn)近的一種度量,將距離近的對(duì)象歸入一類,不同類對(duì)象之間的距離較遠(yuǎn)。

[if !supportLineBreakNewLine]

[endif]

聚類分析根據(jù)對(duì)象的不同分為Q型聚類分析和R型聚類分析,其中,Q型聚類是指對(duì)樣本的聚類,R型聚類是指對(duì)變量的聚類。本節(jié)主要介紹Q型聚類。


一、距離和相似系數(shù)


1.1、距離在聚類過(guò)程中,相距較近的樣本點(diǎn)傾向于歸為一類,相距較遠(yuǎn)的樣本點(diǎn)應(yīng)歸屬于不同的類。最常用的是Minkowski距離。當(dāng)各變量的單位不同或變異性相差很大時(shí),不應(yīng)直接采用Minkowski距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)做標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。使用SciPy庫(kù)spatial模塊下的distance子模塊可以計(jì)算距離,使用該子模塊下的pdist函數(shù)可以計(jì)算n維空間中觀測(cè)值之間的距離,其語(yǔ)法格式如下:


獲取更多知識(shí),前往前往我的wx ————公z號(hào) (程式解說(shuō))

原文來(lái)自https://https://mp.weixin.qq.com/s/ZB1V8NZHJLfKFgIJgiRxOw

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容