模型評估指標(biāo)

準(zhǔn)確率（Accuracy）

準(zhǔn)確率是指分類正確的樣本占總樣本個(gè)數(shù)的比例。
Accuracy = n(correct)/n(total)
當(dāng)負(fù)樣本占99%時(shí)，分類器把所有樣本都預(yù)測為負(fù)樣本也可以獲得99%的準(zhǔn)確率。所以，當(dāng)不同類別的樣本比例非常不均衡時(shí)，占比大的類別往往成為影響準(zhǔn)確率的最主要因素。

精確率（Precision）& 召回率（Recall）

精確率是指分類正確的正樣本個(gè)數(shù)占分類器判定為正樣本的樣本個(gè)數(shù)的比例。
召回率是指分類正確的正樣本個(gè)數(shù)占真正的正樣本個(gè)數(shù)的比例。

為了綜合評估一個(gè)排序模型的好壞，不僅要看模型在不同Top N下的Precision@N和Recall@N，而且最好繪制出模型的P-R（Precision-
Recall）曲線。

P-R曲線的橫軸是召回率，縱軸是精確率。對于一個(gè)排序模型來說，其P-R曲線上的一個(gè)點(diǎn)代表著，在某一閾值下，模型將大于該閾值的結(jié)果判定為正樣本，小于該閾值的結(jié)果判定為負(fù)樣本，此時(shí)返回結(jié)果對應(yīng)的召回率和精確率。

除此之外，F(xiàn)1 score和ROC曲線也能綜合地反映一個(gè)排序模型的性能。F1score是精準(zhǔn)率和召回率的調(diào)和平均值，它定義為

均方誤差（RMSE）

RMSE的公式為

一般情況下，RMSE能夠很好地反映回歸模型預(yù)測值與真實(shí)值的偏離程度。但在實(shí)際問題中，如果存在個(gè)別偏離程度非常大的離群點(diǎn)（Outlier）時(shí)，即使離群點(diǎn)數(shù)量非常少，也會(huì)讓RMSE指標(biāo)變得很差。

針對這個(gè)問題，有什么解決方案呢？可以從三個(gè)角度來思考。第一，如果我們認(rèn)定這些離群點(diǎn)是“噪聲點(diǎn)”的話，就需要在數(shù)據(jù)預(yù)處理的階段把這些噪聲點(diǎn)過濾掉。第二，如果不認(rèn)為這些離群點(diǎn)是“噪聲點(diǎn)”的話，就需要進(jìn)一步提高模型的預(yù)測能力，將離群點(diǎn)產(chǎn)生的機(jī)制建模進(jìn)去（這是一個(gè)宏大的話題，這里就不展開討論了）。第三，可以找一個(gè)更合適的指標(biāo)來評估該模型。關(guān)于評估指標(biāo)，其實(shí)是存在比RMSE的魯棒性更好的指標(biāo)，比如平均絕對百分比誤差（Mean Absolute
Percent Error，MAPE），它定義為

相比RMSE，MAPE相當(dāng)于把每個(gè)點(diǎn)的誤差進(jìn)行了歸一化，降低了個(gè)別離群點(diǎn)帶來的絕對誤差的影響。

ROC曲線

ROC

ROC曲線的橫坐標(biāo)為假陽性率（False Positive Rate，F(xiàn)PR）；縱坐標(biāo)為真陽性率（True Positive Rate，TPR）。

FPR = FP/N
TPR = TP/P

P是真實(shí)的正樣本的數(shù)量，N是真實(shí)的負(fù)樣本的數(shù)量，TP是P個(gè)正樣本中被分類器預(yù)測為正樣本的個(gè)數(shù)，F(xiàn)P是N個(gè)負(fù)樣本中被分類器預(yù)測為正樣本的個(gè)數(shù)。
事實(shí)上，ROC曲線是通過不斷移動(dòng)分類器的“截?cái)帱c(diǎn)”來生成曲線上的一組關(guān)鍵點(diǎn)的。

AUC

顧名思義，AUC指的是ROC曲線下的面積大小，該值能夠量化地反映基于
ROC曲線衡量出的模型性能。計(jì)算AUC值只需要沿著ROC橫軸做積分就可以了。
由于ROC曲線一般都處于y=x這條直線的上方（如果不是的話，只要把模型預(yù)測的概率反轉(zhuǎn)成1?p就可以得到一個(gè)更好的分類器），所以AUC的取值一般在0.5～1之間。AUC越大，說明分類器越可能把真正的正樣本排在前面，分類性能越好。

相比P-R曲線，ROC曲線有一個(gè)特點(diǎn)，當(dāng)正負(fù)樣本的分布發(fā)生變化時(shí)，ROC曲線的形狀能夠基本保持不變，而P-R曲線的形狀一般會(huì)發(fā)生較劇烈的變化。

余弦距離的應(yīng)用

關(guān)注的是向量之間的角度關(guān)系，并不關(guān)心它們的絕對大小，其取值范圍是[?1,1]。當(dāng)一對文本相似度的長度差距很大、但內(nèi)容相近時(shí)，如果使用詞頻或詞向量作為特征，它們在特征空間中的的歐氏距離通常很大；而如果使用余弦相似度的話，它們之間的夾角可能很小，因而相似度高。此外，在文本、圖像、視頻等領(lǐng)域，研究的對象的特征維度往往很高，余弦相似度在高維情況下依然保持“相同時(shí)為1，正交時(shí)為0，相反時(shí)為?1”的性質(zhì)，而歐氏距離的數(shù)值則受維度的影響，范圍不固定，并且含義也比較模糊。
在一些場景，例如Word2Vec中，其向量的模長是經(jīng)過歸一化的，此時(shí)歐氏距離與余弦距離有著單調(diào)的關(guān)系，即

其中|| A?B ||2表示歐氏距離，cos(A,B)表示余弦相似度(1?cos(A,B))表示余弦距離。在此場景下，如果選擇距離最?。ㄏ嗨贫茸畲螅┑慕彛敲词褂糜嘞蚁嗨贫群蜌W氏距離的結(jié)果是相同的。

AB測試

需要進(jìn)行在線A/B測試的原因如下。
（1）離線評估無法完全消除模型過擬合的影響，因此，得出的離線評估結(jié)果無法完全替代線上評估結(jié)果。
（2）離線評估無法完全還原線上的工程環(huán)境。一般來講，離線評估往往不會(huì)考慮線上環(huán)境的延遲、數(shù)據(jù)丟失、標(biāo)簽數(shù)據(jù)缺失等情況。因此，離線評估的結(jié)果是理想工程環(huán)境下的結(jié)果。
（3）線上系統(tǒng)的某些商業(yè)指標(biāo)在離線評估中無法計(jì)算。離線評估一般是針對模型本身進(jìn)行評估，而與模型相關(guān)的其他指標(biāo)，特別是商業(yè)指標(biāo)，往往無法直接獲得。比如，上線了新的推薦算法，離線評估往往關(guān)注的是ROC曲線、P-R曲線等的改進(jìn)，而線上評估可以全面了解該推薦算法帶來的用戶點(diǎn)擊率、留存時(shí)長、PV訪問量等的變化。這些都要由A/B測試來進(jìn)行全面的評估。
如何進(jìn)行AB測試
進(jìn)行A/B測試的主要手段是進(jìn)行用戶分桶，即將用戶分成實(shí)驗(yàn)組和對照組，對實(shí)驗(yàn)組的用戶施以新模型，對對照組的用戶施以舊模型。在分桶的過程中，要注意樣本的獨(dú)立性和采樣方式的無偏性，確保同一個(gè)用戶每次只能分到同一個(gè)桶中，在分桶過程中所選取的user_id需要是一個(gè)隨機(jī)數(shù)，這樣才能保證桶中的樣本是無偏的。
如何劃分實(shí)驗(yàn)組和對照組
無偏無稀釋

模型評估的方法

■ Holdout檢驗(yàn)
Holdout 檢驗(yàn)是最簡單也是最直接的驗(yàn)證方法，它將原始的樣本集合隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩部分。比方說，對于一個(gè)點(diǎn)擊率預(yù)測模型，我們把樣本按照70%～30% 的比例分成兩部分，70% 的樣本用于模型訓(xùn)練；30% 的樣本用于模型驗(yàn)證，包括繪制ROC曲線、計(jì)算精確率和召回率等指標(biāo)來評估模型性能。
Holdout 檢驗(yàn)的缺點(diǎn)很明顯，即在驗(yàn)證集上計(jì)算出來的最后評估指標(biāo)與原始分
組有很大關(guān)系。為了消除隨機(jī)性，研究者們引入了“交叉檢驗(yàn)”的思想。
■ 交叉檢驗(yàn)
k-fold交叉驗(yàn)證：首先將全部樣本劃分成k個(gè)大小相等的樣本子集；依次遍歷這k個(gè)子集，每次把當(dāng)前子集作為驗(yàn)證集，其余所有子集作為訓(xùn)練集，進(jìn)行模型的訓(xùn)練和評估；最后把k次評估指標(biāo)的平均值作為最終的評估指標(biāo)。在實(shí)際實(shí)驗(yàn)中，k經(jīng)常取10。
留一驗(yàn)證：每次留下1個(gè)樣本作為驗(yàn)證集，其余所有樣本作為測試集。樣本總數(shù)為n，依次對n個(gè)樣本進(jìn)行遍歷，進(jìn)行n次驗(yàn)證，再將評估指標(biāo)求平均值得到最終的評估指標(biāo)。在樣本總數(shù)較多的情況下，留一驗(yàn)證法的時(shí)間開銷極大。事實(shí)上，留一驗(yàn)證是留p驗(yàn)證的特例。留p驗(yàn)證是每次留下p個(gè)樣本作為驗(yàn)證集，而從n個(gè)元素中選擇p個(gè)元素有種可能，因此它的時(shí)間開銷更是遠(yuǎn)遠(yuǎn)高于留一驗(yàn)證，故而很少在實(shí)際工程中被應(yīng)用。
■ 自助法
不管是Holdout檢驗(yàn)還是交叉檢驗(yàn)，都是基于劃分訓(xùn)練集和測試集的方法進(jìn)行模型評估的。然而，當(dāng)樣本規(guī)模比較小時(shí)，將樣本集進(jìn)行劃分會(huì)讓訓(xùn)練集進(jìn)一步減小，這可能會(huì)影響模型訓(xùn)練效果。有沒有能維持訓(xùn)練集樣本規(guī)模的驗(yàn)證方法呢？
自助法可以比較好地解決這個(gè)問題。
自助法是基于自助采樣法的檢驗(yàn)方法。對于總數(shù)為n的樣本集合，進(jìn)行n次有放回的隨機(jī)抽樣，得到大小為n的訓(xùn)練集。n次采樣過程中，有的樣本會(huì)被重復(fù)采樣，有的樣本沒有被抽出過，將這些沒有被抽出的樣本作為驗(yàn)證集，進(jìn)行模型驗(yàn)證，這就是自助法的驗(yàn)證過程。

超參數(shù)調(diào)優(yōu)

■ 網(wǎng)格搜索
網(wǎng)格搜索可能是最簡單、應(yīng)用最廣泛的超參數(shù)搜索算法，它通過查找搜索范圍內(nèi)的所有的點(diǎn)來確定最優(yōu)值。如果采用較大的搜索范圍以及較小的步長，網(wǎng)格搜索有很大概率找到全局最優(yōu)值。然而，這種搜索方案十分消耗計(jì)算資源和時(shí)間，特別是需要調(diào)優(yōu)的超參數(shù)比較多的時(shí)候。因此，在實(shí)際應(yīng)用中，網(wǎng)格搜索法一般會(huì)先使用較廣的搜索范圍和較大的步長，來尋找全局最優(yōu)值可能的位置；然后會(huì)逐漸縮小搜索范圍和步長，來尋找更精確的最優(yōu)值。這種操作方案可以降低所需的時(shí)間和計(jì)算量，但由于目標(biāo)函數(shù)一般是非凸的，所以很可能會(huì)錯(cuò)過全局最優(yōu)值。
■ 隨機(jī)搜索
隨機(jī)搜索的思想與網(wǎng)格搜索比較相似，只是不再測試上界和下界之間的所有值，而是在搜索范圍中隨機(jī)選取樣本點(diǎn)。它的理論依據(jù)是，如果樣本點(diǎn)集足夠大，那么通過隨機(jī)采樣也能大概率地找到全局最優(yōu)值，或其近似值。隨機(jī)搜索一般會(huì)比網(wǎng)格搜索要快一些，但是和網(wǎng)格搜索的快速版一樣，它的結(jié)果也是沒法保證的。
■ 貝葉斯優(yōu)化算法
貝葉斯優(yōu)化算法在尋找最優(yōu)最值參數(shù)時(shí)，采用了與網(wǎng)格搜索、隨機(jī)搜索完全不同的方法。網(wǎng)格搜索和隨機(jī)搜索在測試一個(gè)新點(diǎn)時(shí)，會(huì)忽略前一個(gè)點(diǎn)的信息；而貝葉斯優(yōu)化算法則充分利用了之前的信息。貝葉斯優(yōu)化算法通過對目標(biāo)函數(shù)形狀進(jìn)行學(xué)習(xí)，找到使目標(biāo)函數(shù)向全局最優(yōu)值提升的參數(shù)。具體來說，它學(xué)習(xí)目標(biāo)函數(shù)形狀的方法是，首先根據(jù)先驗(yàn)分布，假設(shè)一個(gè)搜集函數(shù)；然后，每一次使用新的采樣點(diǎn)來測試目標(biāo)函數(shù)時(shí)，利用這個(gè)信息來更新目標(biāo)函數(shù)的先驗(yàn)分布；最后，算法測試由后驗(yàn)分布給出的全局最值最可能出現(xiàn)的位置的點(diǎn)。對于貝葉斯優(yōu)化算法，有一個(gè)需要注意的地方，一旦找到了一個(gè)局部最優(yōu)值，它會(huì)在該區(qū)域不斷采樣，所以很容易陷入局部最優(yōu)值。為了彌補(bǔ)這個(gè)缺陷，貝葉斯優(yōu)化算法會(huì)在探索和利用之間找到一個(gè)平衡點(diǎn)，“探索”就是在還未取樣的區(qū)域獲取采樣點(diǎn)；而“利用”則是根據(jù)后驗(yàn)分布在最可能出現(xiàn)全局最值的區(qū)域進(jìn)行采樣。

過擬合與欠擬合

■ 降低“過擬合”風(fēng)險(xiǎn)的方法
（1）從數(shù)據(jù)入手，獲得更多的訓(xùn)練數(shù)據(jù)。使用更多的訓(xùn)練數(shù)據(jù)是決過擬合問題最有效的手段，因?yàn)楦嗟臉颖灸軌蜃屇Ｐ蛯W(xué)習(xí)到更多更有效的特征，減小噪聲的影響。當(dāng)然，直接增加實(shí)驗(yàn)數(shù)據(jù)一般是很困難的，但是可以通過一定的規(guī)則來擴(kuò)充訓(xùn)練數(shù)據(jù)。比如，在圖像分類的問題上，可以通過圖像的平移、旋轉(zhuǎn)、縮放等方式擴(kuò)充數(shù)據(jù)；更進(jìn)一步地，可以使用生成式對抗網(wǎng)絡(luò)來合成大量的新訓(xùn)練數(shù)據(jù)。
（2）降低模型復(fù)雜度。在數(shù)據(jù)較少時(shí)，模型過于復(fù)雜是產(chǎn)生過擬合的主要因素，適當(dāng)降低模型復(fù)雜度可以避免模型擬合過多的采樣噪聲。例如，在神經(jīng)網(wǎng)絡(luò)模型中減少網(wǎng)絡(luò)層數(shù)、神經(jīng)元個(gè)數(shù)等；在決策樹模型中降低樹的深度、進(jìn)行剪枝等。
（3）正則化方法。給模型的參數(shù)加上一定的正則約束，比如將權(quán)值的大小加入到損失函數(shù)中。以L2正則化為例：

這樣，在優(yōu)化原來的目標(biāo)函數(shù)C0的同時(shí)，也能避免權(quán)值過大帶來的過擬合風(fēng)險(xiǎn)。
（4）集成學(xué)習(xí)方法。集成學(xué)習(xí)是把多個(gè)模型集成在一起，來降低單一模型的
過擬合風(fēng)險(xiǎn)，如Bagging方法。
■ 降低“欠擬合”風(fēng)險(xiǎn)的方法
（1）添加新特征。當(dāng)特征不足或者現(xiàn)有特征與樣本標(biāo)簽的相關(guān)性不強(qiáng)時(shí)，模型容易出現(xiàn)欠擬合。通過挖掘“上下文特征”“ID類特征”“組合特征”等新的特征，往往能夠取得更好的效果。在深度學(xué)習(xí)潮流中，有很多模型可以幫助完成特征工程，如因子分解機(jī)、梯度提升決策樹、Deep-crossing等都可以成為豐富特征的方法。
（2）增加模型復(fù)雜度。簡單模型的學(xué)習(xí)能力較差，通過增加模型的復(fù)雜度可以使模型擁有更強(qiáng)的擬合能力。例如，在線性模型中添加高次項(xiàng)，在神經(jīng)網(wǎng)絡(luò)模型中增加網(wǎng)絡(luò)層數(shù)或神經(jīng)元個(gè)數(shù)等。
（3）減小正則化系數(shù)。正則化是用來防止過擬合的，但當(dāng)模型出現(xiàn)欠擬合現(xiàn)象時(shí)，則需要有針對性地減小正則化系數(shù)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【百面機(jī)器學(xué)習(xí)筆記】模型評估

【百面機(jī)器學(xué)習(xí)筆記】模型評估

模型評估指標(biāo)

準(zhǔn)確率（Accuracy）

精確率（Precision）& 召回率（Recall）

均方誤差（RMSE）

ROC曲線

ROC

AUC

余弦距離的應(yīng)用

AB測試

模型評估的方法

超參數(shù)調(diào)優(yōu)

過擬合與欠擬合

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【百面機(jī)器學(xué)習(xí)筆記】模型評估

模型評估指標(biāo)

準(zhǔn)確率（Accuracy）

精確率（Precision）& 召回率（Recall）

均方誤差（RMSE）

ROC曲線

ROC

AUC

余弦距離的應(yīng)用

AB測試

模型評估的方法

超參數(shù)調(diào)優(yōu)

過擬合與欠擬合

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av