算法評測指標(biāo)【常用】

-------------先介紹最核心最混淆的混淆矩陣------------------------------------------

二分類-混淆矩陣

理解三步走

  1. 一看到頭字母縮寫,想到這幾個單詞
    第一位:True正確的,F(xiàn)alse 錯誤的
    第二位:Positive 肯定的(正類), Negative 否定的(負(fù)類)
  2. 理解代表的含義
    第一位:模型判斷的對錯(形容詞,對了or錯了)
    第二位:模型判斷的結(jié)果(名詞,正類or負(fù)類)
  3. 混淆組合
    模型預(yù)測是否正確.預(yù)測的結(jié)果
    TP:判斷對,判斷結(jié)果是正類
    TN:判斷對,判斷結(jié)果是負(fù)類
    FP:判斷錯,判斷結(jié)果是正類,誤識(正類)
    FN:判斷錯,判斷結(jié)果是負(fù)類,漏識(正類)


    混淆矩陣

-------------基于混淆矩陣,衍生的一攬子指標(biāo)--------------------------------------

先看這個,明白了這部分可以跳過了
TPR(真正率)+ FNR(漏識率) = 1
TNR(真負(fù)率)+ FPR(誤識率) = 1

TPR(Recall)

True Positive Rate ,正類被報正類的比率,真正率
TPR = TP/(TP+FN) , 被上報為正/ 所有的正類
又叫recall,召回率,真正類率,真陽率,靈敏度(Sensitivity)
值越大越好

FNR

False Negative Rate,正類錯報為負(fù)類,漏識率(假負(fù)率)
FNR = FN /(TP+FN),錯預(yù)測為負(fù)類/所有正類
值越小越好

TNR

True Negative Rate,負(fù)類被報為負(fù)類的比率,真負(fù)率
TN = TN(TN+FP)
又叫Specific,值越大越好

FPR

False Positive Rate,負(fù)類被誤報的比率,誤識率(假正率)
FRP = FP/(TN+FP),被誤報為正/所有的負(fù)類
又叫特異度,等價于1-Specific
值越小越好

Precision

精確率,正類的比率,分子預(yù)測正確的正類,分母預(yù)測出來的正類(包含True &false)
Precision = TP / (TP + FP)
注意和TPR的區(qū)別,TPR分母是實(shí)際正類

Accuracy

正確率,與精確率的區(qū)別,不只是考慮正類,也考慮負(fù)類,整體的正確率
A = (TP+TN)/(TP+TN+FP+FN)

ROC曲線(待補(bǔ)充)

不同閾值下,F(xiàn)P-TP曲線

-------------業(yè)務(wù)擴(kuò)展使用的常用指標(biāo)---------------------------------------------------

FAR

False Accept Rate,錯誤通過率,誤識率
類FPR(false positive rate),誤識率
類 IAR(imposter Accept rate),“冒名”通過率

FRR

False Reject Rate,正確未通過率,漏識率
類FNR,F(xiàn)alse Negative Rate,正類錯報為負(fù)類,拒識率(假負(fù)率)
類SAR,Spoofing Accept Rate,“欺騙”接受率,常用于活體檢測

相似度和閾值

如對比兩張照片,算法會出一個相似度值,范圍0~100
實(shí)際產(chǎn)品會設(shè)置閾值T,1e-6 = 1*10^(-6),即百萬分之一,1e-5 十萬一
相似度值>閾值T則判定為一個人,反之則不是

閾值和指標(biāo)

一般閾值越高,誤識率越低,漏識率越高
誤識率FAR(T), 漏識率FRR(T) 都是基于T的單調(diào)函數(shù)
求逆,將FRR表示成關(guān)于FAR的函數(shù)FRR(FAR),就是ROC曲線
如百萬一指標(biāo):就是FAR= 1e-5 時,對應(yīng)的FRR(或TP)
千一95%的意思是指在FAR=0.1%的時候,可以做到TP=95%

-------------實(shí)際業(yè)務(wù)場景下理解指標(biāo)---------------------------------------------------
易用性看正類的比率,真正、漏識
安全性看負(fù)類的比率,真負(fù)、誤識

人臉識別

  • 描述通過指標(biāo)(看易用性)
    對外:FRR
    參考:通過率、TPR、Recall
  • 描述誤判率(看安全性)
    對外:FAR
    參考:誤識率、FPR

活體檢測

  • 描述對真人的通過率(看易用性)
    對外:FRR
    參考:真人誤檢率(真人誤殺率)、真人通過率
  • 描述對攻擊的防御能力(看安全性)
    對外:SAR
    參考:攻擊檢出率、攻擊漏檢率
  • 補(bǔ)充關(guān)于活體
    活體攻擊,一般是想要識別出攻擊(圖片、頭模型、假人等),所有攻擊被定義為正類,術(shù)語常用真人誤殺、攻擊漏檢
    在采集時,需采集算法容易錯的樣本

睜閉眼檢測

  • 描述睜眼判斷準(zhǔn)確率
    對外:FRR(睜眼誤判為閉眼)、FAR(閉眼誤判為睜眼)
    參考:雙百率(當(dāng)正閉眼誤判率調(diào)節(jié)相同的情況下,誤判率為百分多少)
    描述更貼切場景,少用術(shù)語類,通過率、準(zhǔn)確率;一般睜眼為正類

注意力檢測

  • 描述注意力判斷的準(zhǔn)確率
    對外:FRR(注視誤判非注視)、FAR(非注意誤判為注視)
    參考:雙百率(當(dāng)注和非注判率調(diào)節(jié)相同的情況下,誤判率為百分多少)
    描述更貼切場景,少用術(shù)語類,通過率、準(zhǔn)確率;一般注視為正類

眼嘴鼻遮擋檢測

  • 描述遮擋判斷準(zhǔn)確率,一般非遮擋為正類
    對外:FRR(非遮擋誤判遮擋)、FAR(遮擋誤判為遮擋)

注意場景類的,要明確好哪種場景是正類
一般期望的場景是正類
如,注視、非遮擋(雖然有個非,但是不遮擋是想要的結(jié)果)

-------------衍生衍生再衍生的可用指標(biāo)------------------------------------------------

FPPI

False Positive num Per Image 每張圖中錯誤檢索的數(shù)目,值越小越好

FPPV

FP num per Video

FPPH

FP num per Hour

FPPD

FP num per day

-------------還有什么呢,包含但不限于------------------------------------------------

存儲指標(biāo)

一般指的是模型站內(nèi)存大小,常見單位兆M

速度

計(jì)算速度,模型訓(xùn)練和預(yù)測需要的時間,處理1次需要的時間,常見單位ms(毫秒)

魯棒性

處理缺失值和異常值的能力

可拓展性

處理大數(shù)據(jù)集的能力

可解釋性

模型預(yù)測標(biāo)準(zhǔn)的可解釋性,比如決策樹產(chǎn)生的規(guī)則容易理解,而神經(jīng)網(wǎng)絡(luò)黑盒有大量參數(shù)不好理解

易集成性

模型是為了實(shí)現(xiàn)某種場景,比如手機(jī)人臉識別,要集成到手機(jī)平臺
集成的難易程度,也是甲
方考慮的因素之一

其他

比如人臉檢測,看可以兼容的角度范圍、最小人臉的pixel值、可檢測的人力數(shù)目

-------------如果指標(biāo)異常,來找找原因------------------------------------------------

測試數(shù)據(jù)量不夠?

人臉比對示例:
100人,每人1張底庫(100張底圖)10張查詢圖(1000張查詢圖)
總共對比100*1000次= 100000次
其中1000對正樣本(自己對比自己),99000對負(fù)樣本(自己對比別人)
可以看萬一的指標(biāo),但側(cè)十萬一就不太可信了

正負(fù)樣本是否均勻采樣?

正負(fù)樣本要均衡

底庫質(zhì)量不好?

這個很好理解,模糊、遮擋、跨年齡等等

數(shù)據(jù)標(biāo)注錯誤?

同個人標(biāo)注為不同人,會出現(xiàn)相似分比較高的誤識別
非采集人員的人臉混入數(shù)據(jù)集離,導(dǎo)致同一人的數(shù)據(jù)有其他的臉,出現(xiàn)相似分低的拒識別

train和val集是否干凈?

  • val的干凈程度決定了模型選取的標(biāo)準(zhǔn),train集的感覺程度決定了模型的優(yōu)劣,
  • 一般train比val量大,有點(diǎn)noise影響不大,有問題優(yōu)先check val集->train集
  • train集清洗,可以重采樣把loss最大的部分挑出重標(biāo)注
  • 清洗val集時,應(yīng)該讓數(shù)據(jù)定義更純粹,把有歧義的(需要仔細(xì)分別或憑干凈判斷)的樣本去除,除非要故意設(shè)立hard_case集
  • 清洗train集時,應(yīng)該讓數(shù)據(jù)定義更符合需求,如瞇眼定義為睜眼,那就標(biāo)注為睜眼,而非去掉歧義樣本

看badcase

從難到易,定位原因
用線上demo(成熟模型基線)跑識別分?jǐn)?shù),對分

哪些情形容易出錯

大角度、遮擋(口罩、墨鏡、劉海、帽子)、模糊、低信噪比、化妝

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 二元分類評價 混淆矩陣 對于二元分類,通??梢暂敵龌煜仃?,看預(yù)測的情況,并從中總結(jié)出一些指標(biāo),給予評價?;煜仃?..
    花諷院_和狆閱讀 1,672評論 0 2
  • ??本文來自網(wǎng)絡(luò),屬于對各評價指標(biāo)的總結(jié),如果看完之后,還不是很理解,可以針對每個評價指標(biāo)再單獨(dú)搜索一些學(xué)習(xí)資料。...
    六千宛閱讀 695評論 0 2
  • 分類metrics綜述 dist=P/N描述樣本均衡性的分布,P為所有正樣本,N為所有負(fù)樣本。這里指P和N的rat...
    shudaxu閱讀 957評論 0 0
  • sklearn輸出的評價矩陣 輸出結(jié)果 結(jié)果分析 輸出結(jié)果 幾點(diǎn)備注:1. sklearn輸出的混淆矩陣中,橫軸為...
    小甜瓜Melon閱讀 5,611評論 0 2
  • 我是黑夜里大雨紛飛的人啊 1 “又到一年六月,有人笑有人哭,有人歡樂有人憂愁,有人驚喜有人失落,有的覺得收獲滿滿有...
    陌忘宇閱讀 8,889評論 28 54

友情鏈接更多精彩內(nèi)容