從數(shù)據(jù)分析到數(shù)據(jù)建模

一.?dāng)?shù)據(jù)可視化

1.數(shù)據(jù)分布情況

2.直方圖

3.PCA(Principal Component Analysis,主成分分析)

1. 降維可以緩解維度災(zāi)難問(wèn)題

2.降維可以在壓縮數(shù)據(jù)的同時(shí)讓信息損失最小化

3.理解幾百個(gè)維度的數(shù)據(jù)結(jié)構(gòu)很困難,兩三個(gè)維度的數(shù)據(jù)通過(guò)可視化更容易理解

你正在拍攝一個(gè)水壺。水壺是三維的,但是照片是二維的,為了更全面的把水壺展示給客戶,你需要從不同角度拍幾張圖片。下圖是你從四個(gè)方向拍的照片:

第一張圖里水壺的背面可以看到,但是看不到前面。第二張圖是拍前面,可以看到壺嘴,這張圖可以提供了第一張圖缺失的信息,但是壺把看不到了。從第三張俯視圖里無(wú)法看出壺的高度。第四張圖是你真正想要的,水壺的高度,頂部,壺嘴和壺把都清晰可見(jiàn)。

PCA的設(shè)計(jì)理念與此類似,它可以將高維數(shù)據(jù)集映射到低維空間的同時(shí),盡可能的保留更多變量

二.異常值處理

1.重復(fù)值刪除

2.離群值處理

箱形圖

箱形圖分析和繪制方法

例子:

一組有序數(shù)12,15,17,19,20,23,25,28,30,33,34,35,36,37

下四分位數(shù)Q1

Q1所在的位置=(14+1)/4=3.75,

Q1=0.25×第三項(xiàng)+0.75×第四項(xiàng)=0.25×17+0.75×19=18.5

中位數(shù)(第二個(gè)四分位數(shù))Q2

Q2所在的位置=2(14+1)/4=7.5,

Q2=0.5×第七項(xiàng)+0.5×第八項(xiàng)=0.5×25+0.5×28=26.5

上四分位數(shù)Q3

Q3所在的位置=3(14+1)/4=11.25,

Q3=0.75×第十一項(xiàng)+0.25×第十二項(xiàng)=0.75×34+0.25×35=34.25

上限

四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR

下限

下限=Q1-1.5IQR


三.缺失值處理

少量缺失值的數(shù)據(jù)可以直接刪除(data.dropna()),有多個(gè)缺失值的特征數(shù)據(jù),利用回歸算法填充。

機(jī)器學(xué)習(xí)分為“監(jiān)督學(xué)習(xí)”和“無(wú)監(jiān)督學(xué)習(xí)”?!氨O(jiān)督學(xué)習(xí)”又分為“回歸”和“分類”。

回歸:銀行根據(jù)你的工資和年齡,決定貸你多少錢。輸出值:1萬(wàn),2萬(wàn),n萬(wàn)等。結(jié)果是連續(xù)的值

分類:銀行根據(jù)你的工資和年齡,決定是否要給你放款。輸出值:是和否。結(jié)果是離散的值

典型的回歸問(wèn)題:預(yù)測(cè)房?jī)r(jià)

填補(bǔ)月工資缺失值(隨機(jī)森林法):

四.分類模型評(píng)估

1.交叉驗(yàn)證(Cross Validation)

K折交叉驗(yàn)證(K-CV)

將原始數(shù)據(jù)分成K組(一般是均分),將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到K個(gè)模型,用這K個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo)\


2.混淆矩陣

四個(gè)基礎(chǔ)指標(biāo),一級(jí)指標(biāo)

FN:False Negative,模型預(yù)測(cè)為負(fù)樣本,但事實(shí)上是正樣本

FP:False Positive, 模型預(yù)測(cè)為正樣本,但事實(shí)上是負(fù)樣本

TN:True Negative, 模型預(yù)測(cè)為負(fù)樣本,事實(shí)上也是負(fù)樣本

TP:True Positive, 模型預(yù)測(cè)為正樣本,事實(shí)上也是正樣本

將這四個(gè)指標(biāo)一起呈現(xiàn)在表格中,就能得到如下這樣一個(gè)矩陣,我們稱它為混淆矩陣(Confusion Matrix)


預(yù)測(cè)性分類模型,肯定是希望越準(zhǔn)越好。那么,對(duì)應(yīng)到混淆矩陣中,那肯定是希望TP與TN的數(shù)量大,而FP與FN的數(shù)量小。所以當(dāng)我們得到了模型的混淆矩陣后,就需要去看有多少觀測(cè)值在第二、四象限對(duì)應(yīng)的位置,這里的數(shù)值越多越好;反之,在第一、三四象限對(duì)應(yīng)位置出現(xiàn)的觀測(cè)值肯定是越少越好

二級(jí)指標(biāo)

混淆矩陣?yán)锩娼y(tǒng)計(jì)的是個(gè)數(shù),有時(shí)候面對(duì)大量的數(shù)據(jù),光憑算個(gè)數(shù),很難衡量模型的優(yōu)劣。因此混淆矩陣在基本的統(tǒng)計(jì)結(jié)果上又延伸了如下4個(gè)指標(biāo),他們是二級(jí)指標(biāo)

準(zhǔn)確率(Accuracy)—— 針對(duì)整個(gè)模型

精確率(Precision)

靈敏度(Sensitivity):就是召回率(Recall)

特異度(Specificity)


三級(jí)指標(biāo)

這個(gè)指標(biāo)叫做F1 Score。他的計(jì)算公式是:


其中,P代表Precision,R代表Recall。

F1-Score指標(biāo)綜合了Precision與Recall的產(chǎn)出的結(jié)果。F1-Score的取值范圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結(jié)果最差。


混淆矩陣實(shí)例


Accuracy

在總共66個(gè)動(dòng)物中,我們一共預(yù)測(cè)對(duì)了10 + 15 + 20=45個(gè)樣本,所以準(zhǔn)確率(Accuracy)=45/66 = 68.2%

以貓為例,我們可以將上面的圖合并為二分問(wèn)題


Precision

所以,以貓為例,模型的結(jié)果告訴我們,66只動(dòng)物里有13只是貓,但是其實(shí)這13只貓只有10只預(yù)測(cè)對(duì)了。模型認(rèn)為是貓的13只動(dòng)物里,有1條狗,兩只豬。所以,Precision(貓)= 10/13 = 76.9%


Recall

以貓為例,在總共18只真貓中,我們的模型認(rèn)為里面只有10只是貓,剩下的3只是狗,5只都是豬。這5只八成是橘貓,能理解。所以,Recall(貓)= 10/18 = 55.6%


Specificity

以貓為例,在總共48只不是貓的動(dòng)物中,模型認(rèn)為有45只不是貓。所以,Specificity(貓)= 45/48 = 93.8%。

雖然在45只動(dòng)物里,模型依然認(rèn)為錯(cuò)判了6只狗與4只貓,但是從貓的角度而言,模型的判斷是沒(méi)有錯(cuò)的。


F1-Score

通過(guò)公式,可以計(jì)算出,對(duì)貓而言,F(xiàn)1-Score=(2 * 0.769 *? 0.556)/( 0.769 +? 0.556)= 64.54%


2.ROC曲線和AUC


橫軸是FPR(FP / (FP + TN)),縱軸是TPR(TP /

(TP + FN)),即Recall

AUC值越大說(shuō)明模型預(yù)測(cè)效果越好

那么為什么要用AUC作為二分類模型的評(píng)價(jià)指標(biāo)呢?為什么不直接通過(guò)計(jì)算準(zhǔn)確率來(lái)對(duì)模型進(jìn)行評(píng)價(jià)呢?

因?yàn)闄C(jī)器學(xué)習(xí)中的很多模型對(duì)于分類問(wèn)題的預(yù)測(cè)結(jié)果大多是概率,即屬于某個(gè)類別的概率,如果計(jì)算準(zhǔn)確率的話,就要把概率轉(zhuǎn)化為類別,這就需要設(shè)定一個(gè)閾值,概率大于某個(gè)閾值的屬于一類,概率小于某個(gè)閾值的屬于另一類,而閾值的設(shè)定直接影響了準(zhǔn)確率的計(jì)算。也就是說(shuō)AUC越高說(shuō)明閾值分割所能達(dá)到的準(zhǔn)確率越高

五.刷榜利器XGBoost

特征重要性

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容