15.評價指標

1. 分類問題評價指標

1-1. 精確率與召回率

精確率(Precision)指的是模型判為正的所有樣本中有多少是真正的正樣本;召回率(Recall)指的是所有正樣本有多少被模型判為正樣本,即召回。感覺精確率是個局部的,召回率是個全局的。

精確率與召回率

1-2. ROC

真正類率(true positive rate ,TPR),刻畫的是分類器所識別出的 正實例占所有正實例的比例(正樣本預測結(jié)果數(shù) / 正樣本實際數(shù))。負正類率(false positive rate, FPR),計算的是分類器錯認為正類的負實例占所有負實例的比例(被預測為正的負樣本結(jié)果數(shù) /負樣本實際數(shù))。

( TPR=0,FPR=0 ) 把每個實例都預測為負類的模型
( TPR=1,FPR=1 ) 把每個實例都預測為正類的模型
( TPR=1,FPR=0 ) 理想模型

ROC曲線

ROC曲線下方的面積(Area Under the ROC Curve, AUC)提供了評價模型平均性能的另一種方法。如果模型是完美的,那么它的AUC = 1,如果模型是個簡單的隨機猜測模型,那么它的AUC = 0.5,如果一個模型好于另一個,則它的曲線下方面積相對較大。

首先AUC值是一個概率值,當你隨機挑選一個正樣本以及一個負樣本,當前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值。當然,AUC值越大,當前的分類算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。

1-3. 對數(shù)損失

對數(shù)損失(Log loss)亦被稱為邏輯回歸損失(Logistic regression loss)

對數(shù)損失通用式
二分類對數(shù)損失

1-4. 鉸鏈損失

鉸鏈損失(Hinge loss)一般用來使“邊緣最大化”(maximal margin)。
鉸鏈損失最開始出現(xiàn)在二分類問題中,假設正樣本被標記為1,負樣本被標記為-1,y是真實值,w是預測值,則鉸鏈損失定義為:

鉸鏈損失

1-5. 混淆矩陣

又被稱為錯誤矩陣,通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預測分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結(jié)果的混淆程度?;煜仃噄行j列的原始是原本是類別i卻被分為類別j的樣本個數(shù),計算完之后還可以對之進行可視化:

混淆矩陣

1-6. kappa系數(shù)

kappa系數(shù)用來衡量兩種標注結(jié)果的吻合程度,標注指的是把N個樣本標注為C個互斥類別。計算公式為

kappa系數(shù)

兩種標注結(jié)果完全相符時,K=1,越不相符其值越小,甚至是負的

1-7. 海明距離

  • 在信息領域,兩個長度相等的字符串的海明距離是在相同位置上不同的字符的個數(shù),也就是將一個字符串替換成另一個字符串需要的替換的次數(shù)。

  • 機器學習方面,當預測結(jié)果與實際情況完全相符時,距離為0;當預測結(jié)果與實際情況完全不符時,距離為1;當預測結(jié)果是實際情況的真子集或真超集時,距離介于0到1之間。我們可以通過對所有樣本的預測情況求平均得到算法在測試集上的總體表現(xiàn)情況

1-8. Jaccard系數(shù)

可將 Jaccard相似系數(shù)用在衡量樣本的相似度上。


Jaccard相似系數(shù)

這里p+q+r可理解為A與B的并集的元素個數(shù),而p是A與B的交集的元素個數(shù)。

2. 擬合問題評價指標

2-1. 平均絕對誤差

平均絕對誤差MAE(Mean Absolute Error)又被稱為l1范數(shù)損失(l1-norm loss):

平均絕對誤差MAE

2-2. 平均平方誤差

平均平方誤差MSE(Mean Squared Error)又被稱為l2范數(shù)損失(l2-norm loss):

平均平方誤差MSE

2-3. 解釋變異

解釋變異( Explained variance)是根據(jù)誤差的方差計算得到的:

解釋變異( Explained variance)

當需要比較兩組數(shù)據(jù)離散程度大小的時候,如果兩組數(shù)據(jù)的測量尺度相差太大,或者數(shù)據(jù)量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,而變異系數(shù)可以做到這一點,他是原始數(shù)據(jù)標準差與原始數(shù)據(jù)平均數(shù)的比。

事實上,可以認為變異系數(shù)和極差、標準差和方差一樣,都是反映數(shù)據(jù)離散程度的絕對值。一般來說,變量值平均水平高,其離散程度的測度值越大,反之越小。

2-4. 決定系數(shù)

決定系數(shù)(Coefficient of determination)又被稱為R2分數(shù):

決定系數(shù)(Coefficient of determination)

當R2越接近1時,表示相關的方程式參考價值越高;相反,越接近0時,表示參考價值越低。這是在一元回歸分析中的情況。但從本質(zhì)上說決定系數(shù)和回歸系數(shù)沒有關系,就像標準差和標準誤差在本質(zhì)上沒有關系一樣。

3. 聚類的評價指標

3-1. 蘭德指數(shù)

蘭德指數(shù)(Rand index)需要給定實際類別信息C,假設K是聚類結(jié)果,a表示在C與K中都是同類別的元素對數(shù),b表示在C與K中都是不同類別的元素對數(shù),則蘭德指數(shù)為:

蘭德指數(shù)(Rand index)

RI取值范圍為[0,1],值越大意味著聚類結(jié)果與真實情況越吻合。

  • 為了實現(xiàn)“在聚類結(jié)果隨機產(chǎn)生的情況下,指標應該接近零”,調(diào)整蘭德系數(shù)(Adjusted rand index)被提出,它具有更高的區(qū)分度:
ARI(Adjusted rand index)

ARI取值范圍為[?1,1],值越大意味著聚類結(jié)果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個數(shù)據(jù)分布的吻合程度。

3-2. 互信息

  • 互信息(Mutual Information)是用來衡量兩個數(shù)據(jù)分布的吻合程度。也是一有用的信息度量,它是指兩個事件集合之間的相關性。
  • 用互信息的方法,在某個類別C中的出現(xiàn)概率高,而在其它類別中的出現(xiàn)概率低的詞條T,將獲得較高的詞條和類別互信息,也就可能被選取為類別C的特征。
  • 互信息是term的存在與否能給類別c的正確判斷帶來的信息量。
  • 詞條和類別的互信息體現(xiàn)了詞條和類別的相關程度,互信息越大,詞條和類別的相關程度也越大。得到詞條和類別之間的相關程度后,選取一定比例的,排名靠前的詞條作為最能代表此種類別的特征。
互信息(Mutual Information)

3-3. 輪廓系數(shù)

輪廓系數(shù)(Silhouette coefficient)適用于實際類別信息未知的情況。對于單個樣本,設a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,輪廓系數(shù)為:

輪廓系數(shù)(Silhouette coefficient)

對于一個樣本集合,它的輪廓系數(shù)是所有樣本輪廓系數(shù)的平均值。
輪廓系數(shù)取值范圍是[?1,1],同類別樣本越距離相近且不同類別樣本距離越遠,分數(shù)越高。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容