先上結(jié)論:F1 Score則能很好的評(píng)價(jià)識(shí)別算法的優(yōu)劣
假設(shè)生產(chǎn)10件產(chǎn)品,有5件是NG品,5件是OK品;需要設(shè)計(jì)一個(gè)算法:
- 首要目標(biāo)是把所有的NG品都找出來,即沒有NG品漏出去,漏檢率為0
- 次要目標(biāo)是盡量減少把OK品誤判為NG品,即盡量降低誤檢率
算法1識(shí)別了5個(gè)NG品,算法2識(shí)別出了2個(gè)NG品,算法3識(shí)別出了7個(gè)NG品,哪個(gè)識(shí)別算法更好?

三種算法識(shí)別結(jié)果
由于識(shí)別NG產(chǎn)品是首要目標(biāo),識(shí)別到NG定義為Positive,識(shí)別到OK定義為Negative,識(shí)別對(duì)了定義為True,識(shí)別錯(cuò)了定義為False,
- True Positive(TP):識(shí)別對(duì)了(T),識(shí)別結(jié)果為P,實(shí)際為P
- True Negative(TN): 識(shí)別對(duì)了(T),識(shí)別結(jié)果為N,實(shí)際為N
- False Positive(FP): 識(shí)別錯(cuò)了(F),識(shí)別結(jié)果為P,實(shí)際為N
- False Negative(FN): 識(shí)別錯(cuò)了(F),識(shí)別結(jié)果為N,實(shí)際為P

Precision/recall/accaracy/F1定義
則上述問題的計(jì)算結(jié)果為:
算法評(píng)估結(jié)果

算法評(píng)估結(jié)果
計(jì)算結(jié)果分析:
- 期望目標(biāo)來說,漏檢優(yōu)先級(jí)最高,其次要是誤檢,只用Precision、Recall或Accuracy,不能區(qū)分三種算法的優(yōu)劣。F1 Score則能很好的區(qū)別算法的優(yōu)劣,算法1最好、算法3其次(漏檢表現(xiàn)的很好,誤檢較差),算法2最差(漏檢很高,首要目標(biāo)都沒有滿足)。
- TP是重中之重,所以,設(shè)計(jì)評(píng)價(jià)指標(biāo)的TP的權(quán)重必須最大,影響力必須跟目標(biāo)的優(yōu)先級(jí)匹配,所以,Precision和Recall都主要由TP影響
- Precision體現(xiàn)識(shí)別結(jié)果為TP與所有識(shí)別為P(Total Marked Positive)的比例
- Recall體現(xiàn)識(shí)別結(jié)果為TP與所有P樣本(Total Positive Ground Truth)的比例
- Accuracy體現(xiàn)識(shí)別正確T的結(jié)果與全體數(shù)據(jù)樣本的比例
- F1是P-R的調(diào)和平均
以Recall作為橫軸,Precision作為縱軸可以得到Precision-Recall曲線圖,簡稱為P-R圖。P-R圖可直觀地顯示出二分類器的Precision和Recall,在進(jìn)行比較時(shí),若一個(gè)二分類器的P-R曲線被另一個(gè)二分類器的P-R曲線完全包住,則可斷言后者的性能優(yōu)于前者,例如下圖中,算法A就要優(yōu)于算法B

算法A就要優(yōu)于算法B
在實(shí)際工程項(xiàng)目中,通常用Accuracy和F1 Score一起來評(píng)估算法好壞
- 當(dāng)各類樣本數(shù)量平衡的時(shí)候,Accuracy ≈ F1 Score
- 當(dāng)各類樣本數(shù)量不平衡(imbalanced)的時(shí)候,Accuracy > F1 Score