【數(shù)據(jù)科學(xué)家學(xué)習(xí)小組】之機(jī)器學(xué)習(xí)第一期第二周作業(yè)
本次作業(yè)涉及了很多統(tǒng)計(jì)學(xué)的知識(shí),對(duì)于個(gè)人的理解顯得有些困難,通過查閱資料,僅對(duì)本次要求掌握的重點(diǎn)概念進(jìn)行了論述,代碼部分后期再補(bǔ),見諒見諒
訓(xùn)練數(shù)據(jù)集(Train Data):是指用來構(gòu)建和訓(xùn)練模型的數(shù)據(jù)。
測試數(shù)據(jù)集(Validation Data):是指用來評(píng)估模型的準(zhǔn)確率的數(shù)據(jù)。
訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都來自于原始數(shù)據(jù),選定的訓(xùn)練數(shù)據(jù)只能在模型檢驗(yàn)時(shí)使用,絕對(duì)不允許用于模型構(gòu)建過程,否則會(huì)導(dǎo)致過渡擬合。
分類準(zhǔn)確度(accuracy):理解分類準(zhǔn)確度,首先的先理解分類 (Classification)的真假與正類負(fù)類的概念(用放羊的小男孩舉例,圖片來自: https://blog.csdn.net/qq_14822691/article/details/81051958 ):
精準(zhǔn)度就是指我們的模型預(yù)測正確的結(jié)果所占的比 ,也就是
, 預(yù)測正確的對(duì)于上例(二元分類)而言,
。
精準(zhǔn)率: 評(píng)價(jià)的是對(duì)于模型預(yù)測的結(jié)果是否足夠準(zhǔn)確,通俗講就是被我們關(guān)注事件真實(shí)被我們預(yù)測到的概率,對(duì)于上例,人們最關(guān)心的_<u style="box-sizing: border-box;">是狼來了</u>這件事,精準(zhǔn)率的值就是預(yù)測狼來了事實(shí)狼卻是來了的次數(shù)(TP)與預(yù)測狼來了的次數(shù)(TP+FP)的比值,即
召回率: 評(píng)價(jià)的是在事件真實(shí)發(fā)生的情況能否被如實(shí)預(yù)測到,也就是我們關(guān)注的那個(gè)事件真實(shí)的發(fā)生情況下,我們成功預(yù)測的比例是多少 。亦即
要全面評(píng)估模型的有效性,必須同時(shí)檢查精確率和召回率 ,但精準(zhǔn)率和召回率指標(biāo)往往呈負(fù)相關(guān)的關(guān)系,需要我們根據(jù)應(yīng)用場景進(jìn)行取舍。對(duì)于 量化投資領(lǐng)域,我們期望的是系統(tǒng)預(yù)測上漲的股票中,真正上漲的比例越大越好,這就是希望查準(zhǔn)率高;對(duì)于醫(yī)療領(lǐng)域做疾病診斷,我們希望模型盡可能地將所有有病的患者都預(yù)測出來,此時(shí)關(guān)注的召回率多一點(diǎn)。
混淆矩陣: 也稱誤差矩陣,是表示精度評(píng)價(jià)的一種標(biāo)準(zhǔn)格式,用n行n列的矩陣形式來表示, 每一列代表了預(yù)測類別,每一列的總數(shù)表示預(yù)測為該類別的數(shù)據(jù)的數(shù)目;每一行代表了數(shù)據(jù)的真實(shí)歸屬類別,每一行的數(shù)據(jù)總數(shù)表示該類別的數(shù)據(jù)實(shí)例的數(shù)目,是一種可視化的工具,比簡單的分類準(zhǔn)確度更全面。
F1 Score: 是精準(zhǔn)率和召回率的調(diào)和平均值,介于0與1之間,公式表達(dá)式為

,其中precision為精準(zhǔn)率,recall為召回率。
ROC曲線: 是一個(gè)用于度量分類中的非均衡性的工具,常和AUC( ROC曲線下的面積 )一起用來評(píng)價(jià)一個(gè)二值分類器的優(yōu)劣 。它描述的是TPR( 預(yù)測事件發(fā)生,占事件真實(shí)發(fā)生的數(shù)據(jù)的百分比,即召回率)和FPR(預(yù)測為事件發(fā)生但真實(shí)未發(fā)生的數(shù)量,占事件未發(fā)生的數(shù)據(jù)總量的百分比)之間的關(guān)系,其中x軸是FPR,y軸是TPR。
均方誤差(MSE): 是真實(shí)值與預(yù)測值的差值的平方然后求和平均,可以抵消掉數(shù)據(jù)量引起的誤差影響。

均方根誤差(RMSE) : 通過將MSE開平方,可以解決量綱的問題, 衡量觀測值與真實(shí)值之間的偏差 。
平均絕對(duì)誤差(MAE):

,加m次再除以m,即可求出平均距離,真實(shí)值與預(yù)測結(jié)果之間的距離最小, 可以更好地反映預(yù)測值誤差的實(shí)際情況。
R Squared: 衡量模型擬合度的一個(gè)量,是一個(gè)比例形式,被解釋方差/總方差 ,公式:R-squared = SSR/TSS=1 - RSS/TSS,其中TSS是執(zhí)行回歸分析前,響應(yīng)變量固有的方差;RSS殘差平方和就是,回歸模型不能解釋的方差;SSR回歸模型可以解釋的方差。