(1)TP、FP、F1
? ? ? ? TP ——將正類預(yù)測(cè)為正類數(shù);FP——將負(fù)類預(yù)測(cè)為正類;TN——將負(fù)類預(yù)測(cè)為負(fù)類數(shù);FN——將正類預(yù)測(cè)為負(fù)類數(shù);
? ? ? ? (精確率)?
? ? ? ? (召回率)?
? ? ? ? ? F1 是精確率和召回率的調(diào)和平均。;
。當(dāng)R和P都很高時(shí)候,F(xiàn)1系數(shù)額會(huì)很高
(2)ROC
? ??????很多學(xué)習(xí)器是為測(cè)試樣本產(chǎn)生一個(gè)實(shí)值或概率預(yù)測(cè),然后將這個(gè)預(yù)測(cè)值與一個(gè)分類閾值進(jìn)行比較,若大于閾值分為正類,否則為反類,因此分類過程可以看作選取一個(gè)截?cái)帱c(diǎn)。不同任務(wù)中,可以選擇不同截?cái)帱c(diǎn),若更注重”查準(zhǔn)率”,應(yīng)選擇排序中靠前位置進(jìn)行截?cái)?,反之若注重”查全率”,則選擇靠后位置截?cái)?。因此排序本身質(zhì)量的好壞,可以直接導(dǎo)致學(xué)習(xí)器不同泛化性能好壞,ROC曲線則是從這個(gè)角度出發(fā)來(lái)研究學(xué)習(xí)器的工具。
????????曲線的坐標(biāo)分別為真正例率(TPR)和假正例率(FPR),定義如下
? ??????;
? ??????

? ??????因現(xiàn)實(shí)任務(wù)中通常利用有限個(gè)測(cè)試樣例來(lái)繪制ROC圖,因此應(yīng)為無(wú)法產(chǎn)生光滑曲線。
? ??????繪圖過程很簡(jiǎn)單:給定m個(gè)正例子,n個(gè)反例子,根據(jù)學(xué)習(xí)器預(yù)測(cè)結(jié)果進(jìn)行排序,先把分類閾值設(shè)為最大,使得所有例子均預(yù)測(cè)為反例,此時(shí)TPR和FPR均為0,在(0,0)處標(biāo)記一個(gè)點(diǎn),再將分類閾值依次設(shè)為每個(gè)樣例的預(yù)測(cè)值,即依次將每個(gè)例子劃分為正例。設(shè)前一個(gè)坐標(biāo)為(x,y),若當(dāng)前為真正例,對(duì)應(yīng)標(biāo)記點(diǎn)為(x,y+1/m),若當(dāng)前為假正例,則標(biāo)記點(diǎn)為(x+1/n,y),然后依次連接各點(diǎn)。
(3)PR曲線
? ? ? ? 以精確率為縱坐標(biāo),召回率為橫坐標(biāo);可以畫出PR曲線

? ? ? ? 如圖,若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)學(xué)習(xí)器完全”包住”,則后者的性能優(yōu)于前者。當(dāng)存在交叉時(shí),可以計(jì)算曲線圍住面積,但比較麻煩,平衡點(diǎn)(查準(zhǔn)率=查全率,BEP)是一種度量方式。