精確率、召回率、F1

精確率 = TP / (TP + FP),表示返回的正例中真正例所占的比例;
召回率 = TP / (TP + FN),表示返回的真正例占所有正例的比例。
(幫助記憶:精確率、召回率都沒TN什么事)
有時候單獨的看精確率和召回率并不能很好的表示一個分類器的好壞,這時候就需要F1了。
F1 = 2TP / (2TP + FP + FN)
ROC、AUC
先介紹兩個概念:
1) 真正類率(TPR),TPR = TP / (TP + FN),返回的正類占所有正類的比例;(沒錯,跟召回率一個公式)
2)假正類率(FPR),F(xiàn)PR = FP / (FP + TN),返回的負類占所有負類的比例。
假設(shè)對于分類器C,當一個樣本是正類的概率大于某一個閾值(一般為0.5)時,我們就將其歸為正類。那么對于一個分類器和固定的數(shù)據(jù)集而言,如果這個閾值不斷的變化(從0到1),我們也就得到了一系列的返回結(jié)果。每一個返回結(jié)果我們都可以得到一對(FPR, TPR)。我們將這一系列的(FPR,TPR)畫到以FPR為橫軸,以TPR為縱軸的坐標系中,我們就得到了所謂ROC曲線。

理想情況下,我們希望TPR接近于1,F(xiàn)PR接近于0。
考慮兩種極端的情況:
1)如果閾值=0,那么所有的檢測對象都標記為正類并返回。此時,TPR=1, FPR=1,對應(yīng)于點(1,1);
2)如果閾值=1,那么所有的檢測對象都標記為負類,沒有返回。此時,TPR=0,RPR=0,對應(yīng)于點(0,0)。
(幫助記憶:TPR、FPR、ROC是描述分類器,所以只對返回數(shù)據(jù)感興趣,而返回的對象都標記為正類(TP和FP),所以TPR代表返回的正類占所有正類的比例,F(xiàn)PR代表返回的負類占所有負類的比例)
明白了ROC,AUC就很簡單了,AUC(Area Under Curve)表示ROC曲線下的面積,AUC的取值為0.5-1。我們的期望是AUC越大越好。