日韩无码久久精品一二,日韩精品夜夜欢

一．?dāng)?shù)據(jù)可視化

1.數(shù)據(jù)分布情況

2.直方圖

3.PCA（Principal Component Analysis，主成分分析）

1. 降維可以緩解維度災(zāi)難問(wèn)題

2.降維可以在壓縮數(shù)據(jù)的同時(shí)讓信息損失最小化

3.理解幾百個(gè)維度的數(shù)據(jù)結(jié)構(gòu)很困難，兩三個(gè)維度的數(shù)據(jù)通過(guò)可視化更容易理解

你正在拍攝一個(gè)水壺。水壺是三維的，但是照片是二維的，為了更全面的把水壺展示給客戶，你需要從不同角度拍幾張圖片。下圖是你從四個(gè)方向拍的照片：

第一張圖里水壺的背面可以看到，但是看不到前面。第二張圖是拍前面，可以看到壺嘴，這張圖可以提供了第一張圖缺失的信息，但是壺把看不到了。從第三張俯視圖里無(wú)法看出壺的高度。第四張圖是你真正想要的，水壺的高度，頂部，壺嘴和壺把都清晰可見(jiàn)。

PCA的設(shè)計(jì)理念與此類似，它可以將高維數(shù)據(jù)集映射到低維空間的同時(shí)，盡可能的保留更多變量

二．異常值處理

1.重復(fù)值刪除：

2.離群值處理：

箱形圖

箱形圖分析和繪制方法

例子：

一組有序數(shù)12，15，17，19，20，23，25，28，30，33，34，35，36，37

下四分位數(shù)Q1

Q1所在的位置=（14+1）/4=3.75，

Q1=0.25×第三項(xiàng)+0.75×第四項(xiàng)=0.25×17+0.75×19=18.5

中位數(shù)（第二個(gè)四分位數(shù)）Q2

Q2所在的位置=2（14+1）/4=7.5，

Q2=0.5×第七項(xiàng)+0.5×第八項(xiàng)=0.5×25+0.5×28=26.5

上四分位數(shù)Q3

Q3所在的位置=3（14+1）/4=11.25，

Q3=0.75×第十一項(xiàng)+0.25×第十二項(xiàng)=0.75×34+0.25×35=34.25

上限

四分位距IQR=Q3-Q1，那么上限=Q3+1.5IQR

下限

下限=Q1-1.5IQR

三．缺失值處理

少量缺失值的數(shù)據(jù)可以直接刪除（data.dropna()），有多個(gè)缺失值的特征數(shù)據(jù)，利用回歸算法填充。

機(jī)器學(xué)習(xí)分為“監(jiān)督學(xué)習(xí)”和“無(wú)監(jiān)督學(xué)習(xí)”?！氨O(jiān)督學(xué)習(xí)”又分為“回歸”和“分類”。

回歸：銀行根據(jù)你的工資和年齡，決定貸你多少錢。輸出值：1萬(wàn)，2萬(wàn)，n萬(wàn)等。結(jié)果是連續(xù)的值

分類：銀行根據(jù)你的工資和年齡，決定是否要給你放款。輸出值：是和否。結(jié)果是離散的值

典型的回歸問(wèn)題：預(yù)測(cè)房?jī)r(jià)

填補(bǔ)月工資缺失值（隨機(jī)森林法）：

四．分類模型評(píng)估

1.交叉驗(yàn)證（Cross Validation）

K折交叉驗(yàn)證（K-CV）

將原始數(shù)據(jù)分成K組（一般是均分），將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集，其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集，這樣會(huì)得到K個(gè)模型，用這K個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此K-CV下分類器的性能指標(biāo)\

2.混淆矩陣

四個(gè)基礎(chǔ)指標(biāo)，一級(jí)指標(biāo)

FN：False Negative,模型預(yù)測(cè)為負(fù)樣本，但事實(shí)上是正樣本

FP：False Positive, 模型預(yù)測(cè)為正樣本，但事實(shí)上是負(fù)樣本

TN：True Negative, 模型預(yù)測(cè)為負(fù)樣本，事實(shí)上也是負(fù)樣本

TP：True Positive, 模型預(yù)測(cè)為正樣本，事實(shí)上也是正樣本

將這四個(gè)指標(biāo)一起呈現(xiàn)在表格中，就能得到如下這樣一個(gè)矩陣，我們稱它為混淆矩陣（Confusion Matrix）

預(yù)測(cè)性分類模型，肯定是希望越準(zhǔn)越好。那么，對(duì)應(yīng)到混淆矩陣中，那肯定是希望TP與TN的數(shù)量大，而FP與FN的數(shù)量小。所以當(dāng)我們得到了模型的混淆矩陣后，就需要去看有多少觀測(cè)值在第二、四象限對(duì)應(yīng)的位置，這里的數(shù)值越多越好；反之，在第一、三四象限對(duì)應(yīng)位置出現(xiàn)的觀測(cè)值肯定是越少越好

二級(jí)指標(biāo)

混淆矩陣?yán)锩娼y(tǒng)計(jì)的是個(gè)數(shù)，有時(shí)候面對(duì)大量的數(shù)據(jù)，光憑算個(gè)數(shù)，很難衡量模型的優(yōu)劣。因此混淆矩陣在基本的統(tǒng)計(jì)結(jié)果上又延伸了如下4個(gè)指標(biāo)，他們是二級(jí)指標(biāo)

準(zhǔn)確率（Accuracy）—— 針對(duì)整個(gè)模型

精確率（Precision）

靈敏度（Sensitivity）：就是召回率（Recall）

特異度（Specificity）

三級(jí)指標(biāo)

這個(gè)指標(biāo)叫做F1 Score。他的計(jì)算公式是：

其中，P代表Precision，R代表Recall。

F1-Score指標(biāo)綜合了Precision與Recall的產(chǎn)出的結(jié)果。F1-Score的取值范圍從0到1的，1代表模型的輸出最好，0代表模型的輸出結(jié)果最差。

混淆矩陣實(shí)例

Accuracy

在總共66個(gè)動(dòng)物中，我們一共預(yù)測(cè)對(duì)了10 + 15 + 20=45個(gè)樣本，所以準(zhǔn)確率（Accuracy）=45/66 = 68.2%

以貓為例，我們可以將上面的圖合并為二分問(wèn)題

Precision

所以，以貓為例，模型的結(jié)果告訴我們，66只動(dòng)物里有13只是貓，但是其實(shí)這13只貓只有10只預(yù)測(cè)對(duì)了。模型認(rèn)為是貓的13只動(dòng)物里，有1條狗，兩只豬。所以，Precision（貓）= 10/13 = 76.9%

Recall

以貓為例，在總共18只真貓中，我們的模型認(rèn)為里面只有10只是貓，剩下的3只是狗，5只都是豬。這5只八成是橘貓，能理解。所以，Recall（貓）= 10/18 = 55.6%

Specificity

以貓為例，在總共48只不是貓的動(dòng)物中，模型認(rèn)為有45只不是貓。所以，Specificity（貓）= 45/48 = 93.8%。

雖然在45只動(dòng)物里，模型依然認(rèn)為錯(cuò)判了6只狗與4只貓，但是從貓的角度而言，模型的判斷是沒(méi)有錯(cuò)的。

F1-Score

通過(guò)公式，可以計(jì)算出，對(duì)貓而言，F(xiàn)1-Score=（2 * 0.769 *? 0.556）/（ 0.769 +? 0.556）= 64.54%

2.ROC曲線和AUC

橫軸是FPR（FP / (FP + TN)），縱軸是TPR（TP /

(TP + FN)），即Recall

AUC值越大說(shuō)明模型預(yù)測(cè)效果越好

那么為什么要用AUC作為二分類模型的評(píng)價(jià)指標(biāo)呢？為什么不直接通過(guò)計(jì)算準(zhǔn)確率來(lái)對(duì)模型進(jìn)行評(píng)價(jià)呢？

因?yàn)闄C(jī)器學(xué)習(xí)中的很多模型對(duì)于分類問(wèn)題的預(yù)測(cè)結(jié)果大多是概率，即屬于某個(gè)類別的概率，如果計(jì)算準(zhǔn)確率的話，就要把概率轉(zhuǎn)化為類別，這就需要設(shè)定一個(gè)閾值，概率大于某個(gè)閾值的屬于一類，概率小于某個(gè)閾值的屬于另一類，而閾值的設(shè)定直接影響了準(zhǔn)確率的計(jì)算。也就是說(shuō)AUC越高說(shuō)明閾值分割所能達(dá)到的準(zhǔn)確率越高

五．刷榜利器XGBoost

特征重要性

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

從數(shù)據(jù)分析到數(shù)據(jù)建模

從數(shù)據(jù)分析到數(shù)據(jù)建模

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

從數(shù)據(jù)分析到數(shù)據(jù)建模

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av