針對(duì)二元分類結(jié)果,常用的評(píng)估指標(biāo)有如下三個(gè):查準(zhǔn)率(Precision)、查全率(Recall)以及F-score。這篇文章將討論這些指標(biāo)的含義、設(shè)計(jì)初衷以及局限性。
一、二元分類問題
在機(jī)器學(xué)習(xí)領(lǐng)域,我們常常會(huì)碰到二元分類問題。這是因?yàn)樵诂F(xiàn)實(shí)中,我們常常面對(duì)一些二元選擇,比如在休息時(shí),決定是否一把吃雞游戲。不僅如此,很多事情的結(jié)果也是二元的,比如向妹子表白時(shí),是否被發(fā)好人卡。
當(dāng)然,在實(shí)際中還存在一些結(jié)果是多元的情況,比如從紅、黃、藍(lán)三種顏色中,選擇一個(gè),而這些多元情況對(duì)應(yīng)著機(jī)器學(xué)習(xí)里的多元分類問題。對(duì)于多元分類問題,在實(shí)際的處理過程中常將它們轉(zhuǎn)換為多個(gè)二元分類問題解決,比如圖1所示的例子。

那么自然地,一個(gè)多元分類結(jié)果可以分解為多個(gè)二元分類結(jié)果來進(jìn)行評(píng)估。這就是為什么我們只討論二元分類結(jié)果的評(píng)估。為了更加嚴(yán)謹(jǐn)?shù)谋硎觯覀兪褂米兞?img class="math-inline" src="https://math.jianshu.com/math?formula=y_i" alt="y_i" mathimg="1">來表示真實(shí)的結(jié)果,表示預(yù)測(cè)的結(jié)果。其中
表示正面的結(jié)果(在實(shí)際應(yīng)用中更加關(guān)心的類別),比如妹子接受表白,而
表示負(fù)面的結(jié)果,比如妹子拒絕表白。
二、查準(zhǔn)率與查全率
在討論查準(zhǔn)查全的數(shù)學(xué)公式之前,我們先來探討:針對(duì)二元分類問題,應(yīng)該如何正確評(píng)估一份預(yù)測(cè)結(jié)果的效果。
沿用上面的數(shù)學(xué)記號(hào)。如圖2所示,圖中標(biāo)記為1的方塊表示,但
的數(shù)據(jù);標(biāo)記為3的凹型方塊表示
,但
的數(shù)據(jù);標(biāo)記為2的方塊表示
,且
的數(shù)據(jù)。而且這些圖形的面積與對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)量成正比,比如,
,且
的數(shù)據(jù)個(gè)數(shù)越多,標(biāo)記2的面積越大。
很容易發(fā)現(xiàn),圖中標(biāo)記為2的部分表示模型預(yù)測(cè)結(jié)果正確,而標(biāo)記為1和3的部分則表示模型預(yù)測(cè)結(jié)果錯(cuò)誤。
- 對(duì)于一份預(yù)測(cè)結(jié)果,一方面希望它能做到“精確”:當(dāng)時(shí)
,有很大概率,真實(shí)值
就等于1。這表現(xiàn)在圖形上,就是標(biāo)記2的面積很大,而標(biāo)記3的面積很小。
- 另一方面也希望它能做到“全面”:對(duì)于幾乎所有的
,對(duì)應(yīng)的預(yù)測(cè)值
也等于1。在圖形上,這表示標(biāo)記2的面積很大,而標(biāo)記1的面積很小。
于是,對(duì)應(yīng)地定義查準(zhǔn)率(precision)和查全率(recall)這兩個(gè)技術(shù)指標(biāo)(有的文獻(xiàn)里,將查準(zhǔn)率翻譯為精確率;將查全率翻譯為召回率)來評(píng)估一份預(yù)測(cè)結(jié)果的效果。比較直觀的定義如圖2所示。

為了更加嚴(yán)謹(jǐn),下面將從數(shù)學(xué)的角度給出這兩個(gè)指標(biāo)的嚴(yán)格定義。首先將數(shù)據(jù)按預(yù)測(cè)值和真實(shí)值分為4類,具體見表1。

于是可以得到公式(1):
公式(1)經(jīng)過進(jìn)一步的推導(dǎo),可以得到這兩個(gè)技術(shù)指標(biāo)的概率定義,如公式(2)。從概率上來講:預(yù)測(cè)值等于1時(shí),真實(shí)值等于1的概率為查準(zhǔn)率;真實(shí)值等于1時(shí),預(yù)測(cè)值等于1的概率為查全率。
理想的情況是這兩個(gè)指標(biāo)都很高,但現(xiàn)實(shí)往往是殘酷的。這兩個(gè)指標(biāo)通常存在著此消彼長(zhǎng)的現(xiàn)象。比如降低預(yù)測(cè)表白成功的標(biāo)準(zhǔn)(也就是增加的數(shù)量),往往會(huì)提高它的查全率,但同時(shí)會(huì)降低它的查準(zhǔn)率,反之依然。整個(gè)過程的直觀圖像如圖3所示。

三、F-score
既然這兩個(gè)指標(biāo)往往是成反比的,而且在很大程度上,受預(yù)測(cè)標(biāo)準(zhǔn)的控制。那么只拿其中的某一個(gè)指標(biāo)去評(píng)估預(yù)測(cè)結(jié)果是不太合適的。比如在極端情況下,預(yù)測(cè)所有表白都成功,即。這時(shí)預(yù)測(cè)的查全率是100%,但查準(zhǔn)率肯定很低,而且這樣的預(yù)測(cè)顯然是沒太大價(jià)值的。而兩個(gè)指標(biāo)同時(shí)使用,在實(shí)際應(yīng)用時(shí)又不太方便。為了破解這個(gè)困局,在實(shí)踐中,我們定義了新的指標(biāo)去“綜合”這兩個(gè)指標(biāo)。具體的定義如公式(3),從數(shù)學(xué)上來看,它其實(shí)是查準(zhǔn)率與查全率的調(diào)和平均數(shù)。對(duì)于二元分類問題,綜合考慮了預(yù)測(cè)結(jié)果的查準(zhǔn)率和查全率,是一個(gè)比較好的評(píng)估指標(biāo)。
其實(shí)從模型的角度來看,查準(zhǔn)率與查全率的“相互矛盾”給了我們更多的調(diào)整空間。應(yīng)用場(chǎng)景不同,我們對(duì)查準(zhǔn)率和查全率的要求是不一樣的。在有的場(chǎng)景中,關(guān)注的焦點(diǎn)是查全率。例如對(duì)于網(wǎng)上購物的衣服推薦,電商平臺(tái)關(guān)心的是那些對(duì)衣服感興趣的客戶,希望模型對(duì)這些客戶的預(yù)測(cè)都正確;而那些對(duì)衣服不感興趣的客戶,即使模型結(jié)果有較大偏差,也是可以接受的。也就是說,電商平臺(tái)重視查全率,但不太關(guān)心查準(zhǔn)率。這時(shí)就可以調(diào)低模型的預(yù)測(cè)標(biāo)準(zhǔn),通過犧牲查準(zhǔn)率來保證查全率。但在有的場(chǎng)景中,查準(zhǔn)率才是重點(diǎn)。例如在實(shí)時(shí)競(jìng)價(jià)(RTB)廣告行業(yè),有3種參與者:需要在互聯(lián)網(wǎng)上對(duì)產(chǎn)品做廣告的商家,比如Nike;廣告投放中介(DSP);廣告位提供者,比如新浪網(wǎng)。Nike將廣告內(nèi)容委托給廣告投放中介A,A通過分析選定目標(biāo)客戶群。當(dāng)目標(biāo)客戶訪問新浪網(wǎng)時(shí),A向新浪網(wǎng)購買廣告位并將Nike廣告推送給他。如果該客戶點(diǎn)擊了Nike廣告,Nike會(huì)向投放中介A支付相應(yīng)費(fèi)用。否則,全部費(fèi)用由中介A承擔(dān)。那么對(duì)于廣告投放中介A,它希望投放的每條廣告都會(huì)被點(diǎn)擊,但不太關(guān)心是否每個(gè)對(duì)Nike感興趣的客戶都被推送了廣告。換句話說,廣告投放中介更關(guān)心查準(zhǔn)率。于是可以通過調(diào)高模型的預(yù)測(cè)標(biāo)準(zhǔn)來提高查準(zhǔn)率,當(dāng)然這時(shí)會(huì)犧牲一部分查全率。
對(duì)于這些偏重某一特定指標(biāo)的場(chǎng)景,可以如公式(4),相應(yīng)地定義指標(biāo)(其實(shí)是的一個(gè)特例)。當(dāng)靠近0時(shí),偏向查準(zhǔn)率,而很大時(shí),則偏向查全率,如圖4所示。

四、總結(jié)
查準(zhǔn)率、查全率和F-score是最為常用的二元分類結(jié)果評(píng)估指標(biāo)。其中查準(zhǔn)率和查全率這兩個(gè)指標(biāo)都只側(cè)重于預(yù)測(cè)結(jié)果的某一個(gè)方面,并不能較全面地評(píng)價(jià)分類結(jié)果。而F-score則是更加“上層”的評(píng)估指標(biāo),它建立在前面兩個(gè)指標(biāo)的基礎(chǔ)上,綜合地考慮了分類結(jié)果的精確性和全面性。
從上面的討論可以看到,這三個(gè)指標(biāo)針對(duì)的是某一份給定的分類結(jié)果。但對(duì)于大多數(shù)分類模型,它們往往能產(chǎn)生很多份分類結(jié)果,比如對(duì)于邏輯回歸,調(diào)整預(yù)測(cè)閾值可以得到不同的分類結(jié)果。也就是說,這三個(gè)指標(biāo)并不能“很全面”地評(píng)估模型本身的效果,需要引入新的評(píng)估指標(biāo)。這部分內(nèi)容的討論將在下一篇文章中展開(《分類模型的評(píng)估(二)》)。
五、廣告時(shí)間
這篇文章的大部分內(nèi)容參考自我的新書《精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)》。
李國(guó)杰院士和韓家煒教授在讀過此書后,親自為其作序,歡迎大家購買。
另外,與之相關(guān)的免費(fèi)視頻課程請(qǐng)關(guān)注這個(gè)鏈接