針對(duì)二元分類結(jié)果，常用的評(píng)估指標(biāo)有如下三個(gè)：查準(zhǔn)率（Precision）、查全率（Recall）以及F-score。這篇文章將討論這些指標(biāo)的含義、設(shè)計(jì)初衷以及局限性。

一、二元分類問題

在機(jī)器學(xué)習(xí)領(lǐng)域，我們常常會(huì)碰到二元分類問題。這是因?yàn)樵诂F(xiàn)實(shí)中，我們常常面對(duì)一些二元選擇，比如在休息時(shí)，決定是否一把吃雞游戲。不僅如此，很多事情的結(jié)果也是二元的，比如向妹子表白時(shí)，是否被發(fā)好人卡。

當(dāng)然，在實(shí)際中還存在一些結(jié)果是多元的情況，比如從紅、黃、藍(lán)三種顏色中，選擇一個(gè)，而這些多元情況對(duì)應(yīng)著機(jī)器學(xué)習(xí)里的多元分類問題。對(duì)于多元分類問題，在實(shí)際的處理過程中常將它們轉(zhuǎn)換為多個(gè)二元分類問題解決，比如圖1所示的例子。

圖1

那么自然地，一個(gè)多元分類結(jié)果可以分解為多個(gè)二元分類結(jié)果來進(jìn)行評(píng)估。這就是為什么我們只討論二元分類結(jié)果的評(píng)估。為了更加嚴(yán)謹(jǐn)?shù)谋硎觯覀兪褂米兞?img class="math-inline" src="https://math.jianshu.com/math?formula=y_i" alt="y_i" mathimg="1">來表示真實(shí)的結(jié)果， $\hat{y}_i$ 表示預(yù)測(cè)的結(jié)果。其中 $y_i = 1$ 表示正面的結(jié)果（在實(shí)際應(yīng)用中更加關(guān)心的類別），比如妹子接受表白，而 $y_i = 0$ 表示負(fù)面的結(jié)果，比如妹子拒絕表白。

二、查準(zhǔn)率與查全率

在討論查準(zhǔn)查全的數(shù)學(xué)公式之前，我們先來探討：針對(duì)二元分類問題，應(yīng)該如何正確評(píng)估一份預(yù)測(cè)結(jié)果的效果。

沿用上面的數(shù)學(xué)記號(hào)。如圖2所示，圖中標(biāo)記為1的方塊表示 $\hat{y}_i = 0$ ，但 $y_i = 1$ 的數(shù)據(jù)；標(biāo)記為3的凹型方塊表示 $\hat{y}_i = 1$ ，但 $y_i = 0$ 的數(shù)據(jù)；標(biāo)記為2的方塊表示 $\hat{y}_i = 1$ ，且 $y_i = 1$ 的數(shù)據(jù)。而且這些圖形的面積與對(duì)應(yīng)數(shù)據(jù)的數(shù)據(jù)量成正比，比如， $\hat{y}_i = 1$ ，且 $y_i = 1$ 的數(shù)據(jù)個(gè)數(shù)越多，標(biāo)記2的面積越大。

很容易發(fā)現(xiàn)，圖中標(biāo)記為2的部分表示模型預(yù)測(cè)結(jié)果正確，而標(biāo)記為1和3的部分則表示模型預(yù)測(cè)結(jié)果錯(cuò)誤。

對(duì)于一份預(yù)測(cè)結(jié)果，一方面希望它能做到“精確”：當(dāng)時(shí) $\hat{y}_i = 1$ ，有很大概率，真實(shí)值 $y_i$ 就等于1。這表現(xiàn)在圖形上，就是標(biāo)記2的面積很大，而標(biāo)記3的面積很小。
另一方面也希望它能做到“全面”：對(duì)于幾乎所有的 $y_i = 1$ ，對(duì)應(yīng)的預(yù)測(cè)值 $\hat{y}_i$ 也等于1。在圖形上，這表示標(biāo)記2的面積很大，而標(biāo)記1的面積很小。

于是，對(duì)應(yīng)地定義查準(zhǔn)率（precision）和查全率（recall）這兩個(gè)技術(shù)指標(biāo)（有的文獻(xiàn)里，將查準(zhǔn)率翻譯為精確率；將查全率翻譯為召回率）來評(píng)估一份預(yù)測(cè)結(jié)果的效果。比較直觀的定義如圖2所示。

圖2

為了更加嚴(yán)謹(jǐn)，下面將從數(shù)學(xué)的角度給出這兩個(gè)指標(biāo)的嚴(yán)格定義。首先將數(shù)據(jù)按預(yù)測(cè)值和真實(shí)值分為4類，具體見表1。

表1

于是可以得到公式（1）：

$Precision = \frac{TP}{TP + FP}, Recall = \frac{TP}{TP + FN} \tag{1}$

公式（1）經(jīng)過進(jìn)一步的推導(dǎo)，可以得到這兩個(gè)技術(shù)指標(biāo)的概率定義，如公式（2）。從概率上來講：預(yù)測(cè)值等于1時(shí)，真實(shí)值等于1的概率為查準(zhǔn)率；真實(shí)值等于1時(shí)，預(yù)測(cè)值等于1的概率為查全率。

$Precision = P(y_i = 1 | \hat{y}_i = 1), Recall = P(\hat{y}_i = 1 | y_i = 1) \tag{2}$

理想的情況是這兩個(gè)指標(biāo)都很高，但現(xiàn)實(shí)往往是殘酷的。這兩個(gè)指標(biāo)通常存在著此消彼長(zhǎng)的現(xiàn)象。比如降低預(yù)測(cè)表白成功的標(biāo)準(zhǔn)（也就是增加 $\hat{y}_i = 1$ 的數(shù)量），往往會(huì)提高它的查全率，但同時(shí)會(huì)降低它的查準(zhǔn)率，反之依然。整個(gè)過程的直觀圖像如圖3所示。

圖3

三、F-score

既然這兩個(gè)指標(biāo)往往是成反比的，而且在很大程度上，受預(yù)測(cè)標(biāo)準(zhǔn)的控制。那么只拿其中的某一個(gè)指標(biāo)去評(píng)估預(yù)測(cè)結(jié)果是不太合適的。比如在極端情況下，預(yù)測(cè)所有表白都成功，即。這時(shí)預(yù)測(cè)的查全率是100%，但查準(zhǔn)率肯定很低，而且這樣的預(yù)測(cè)顯然是沒太大價(jià)值的。而兩個(gè)指標(biāo)同時(shí)使用，在實(shí)際應(yīng)用時(shí)又不太方便。為了破解這個(gè)困局，在實(shí)踐中，我們定義了新的指標(biāo)去“綜合”這兩個(gè)指標(biāo)。具體的定義如公式（3），從數(shù)學(xué)上來看，它其實(shí)是查準(zhǔn)率與查全率的調(diào)和平均數(shù)。對(duì)于二元分類問題， $F_1-score$ 綜合考慮了預(yù)測(cè)結(jié)果的查準(zhǔn)率和查全率，是一個(gè)比較好的評(píng)估指標(biāo)。

$F_1 = 2/(\frac{1}{precision} + \frac{1}{recall}) = 2\frac{precision \times recall}{precision + recall} \tag{3}$

其實(shí)從模型的角度來看，查準(zhǔn)率與查全率的“相互矛盾”給了我們更多的調(diào)整空間。應(yīng)用場(chǎng)景不同，我們對(duì)查準(zhǔn)率和查全率的要求是不一樣的。在有的場(chǎng)景中，關(guān)注的焦點(diǎn)是查全率。例如對(duì)于網(wǎng)上購物的衣服推薦，電商平臺(tái)關(guān)心的是那些對(duì)衣服感興趣的客戶，希望模型對(duì)這些客戶的預(yù)測(cè)都正確；而那些對(duì)衣服不感興趣的客戶，即使模型結(jié)果有較大偏差，也是可以接受的。也就是說，電商平臺(tái)重視查全率，但不太關(guān)心查準(zhǔn)率。這時(shí)就可以調(diào)低模型的預(yù)測(cè)標(biāo)準(zhǔn)，通過犧牲查準(zhǔn)率來保證查全率。但在有的場(chǎng)景中，查準(zhǔn)率才是重點(diǎn)。例如在實(shí)時(shí)競(jìng)價(jià)（RTB）廣告行業(yè)，有3種參與者：需要在互聯(lián)網(wǎng)上對(duì)產(chǎn)品做廣告的商家，比如Nike；廣告投放中介（DSP）；廣告位提供者，比如新浪網(wǎng)。Nike將廣告內(nèi)容委托給廣告投放中介A，A通過分析選定目標(biāo)客戶群。當(dāng)目標(biāo)客戶訪問新浪網(wǎng)時(shí)，A向新浪網(wǎng)購買廣告位并將Nike廣告推送給他。如果該客戶點(diǎn)擊了Nike廣告，Nike會(huì)向投放中介A支付相應(yīng)費(fèi)用。否則，全部費(fèi)用由中介A承擔(dān)。那么對(duì)于廣告投放中介A，它希望投放的每條廣告都會(huì)被點(diǎn)擊，但不太關(guān)心是否每個(gè)對(duì)Nike感興趣的客戶都被推送了廣告。換句話說，廣告投放中介更關(guān)心查準(zhǔn)率。于是可以通過調(diào)高模型的預(yù)測(cè)標(biāo)準(zhǔn)來提高查準(zhǔn)率，當(dāng)然這時(shí)會(huì)犧牲一部分查全率。

對(duì)于這些偏重某一特定指標(biāo)的場(chǎng)景，可以如公式（4），相應(yīng)地定義指標(biāo)（其實(shí)是的一個(gè)特例）。當(dāng)靠近0時(shí)，偏向查準(zhǔn)率，而很大時(shí)，則偏向查全率，如圖4所示。

$F_\beta = (1 + \beta^2)\frac{precision \times recall}{\beta^2\times precision + recall}$

圖4

四、總結(jié)

查準(zhǔn)率、查全率和F-score是最為常用的二元分類結(jié)果評(píng)估指標(biāo)。其中查準(zhǔn)率和查全率這兩個(gè)指標(biāo)都只側(cè)重于預(yù)測(cè)結(jié)果的某一個(gè)方面，并不能較全面地評(píng)價(jià)分類結(jié)果。而F-score則是更加“上層”的評(píng)估指標(biāo)，它建立在前面兩個(gè)指標(biāo)的基礎(chǔ)上，綜合地考慮了分類結(jié)果的精確性和全面性。

從上面的討論可以看到，這三個(gè)指標(biāo)針對(duì)的是某一份給定的分類結(jié)果。但對(duì)于大多數(shù)分類模型，它們往往能產(chǎn)生很多份分類結(jié)果，比如對(duì)于邏輯回歸，調(diào)整預(yù)測(cè)閾值可以得到不同的分類結(jié)果。也就是說，這三個(gè)指標(biāo)并不能“很全面”地評(píng)估模型本身的效果，需要引入新的評(píng)估指標(biāo)。這部分內(nèi)容的討論將在下一篇文章中展開（《分類模型的評(píng)估（二）》）。

五、廣告時(shí)間

這篇文章的大部分內(nèi)容參考自我的新書《精通數(shù)據(jù)科學(xué)：從線性回歸到深度學(xué)習(xí)》。

李國(guó)杰院士和韓家煒教授在讀過此書后，親自為其作序，歡迎大家購買。

另外，與之相關(guān)的免費(fèi)視頻課程請(qǐng)關(guān)注這個(gè)鏈接

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

分類模型的評(píng)估（一）

分類模型的評(píng)估（一）

一、二元分類問題

二、查準(zhǔn)率與查全率

三、F-score

四、總結(jié)

五、廣告時(shí)間

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

分類模型的評(píng)估（一）

一、二元分類問題

二、查準(zhǔn)率與查全率

三、F-score

四、總結(jié)

五、廣告時(shí)間

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、二元分類問題

二、查準(zhǔn)率與查全率

三、F-score

四、總結(jié)