機(jī)器學(xué)習(xí)樣本不均衡問(wèn)題

解決方案1:
上采樣或者下采樣
解決方案2:
給樣本配置比例系數(shù),樣本比例大的比例系數(shù)小,樣本比例小的比例系數(shù)大。
解決方案3(推薦):
分類(lèi)閾值移動(dòng)

通常在一個(gè)二分類(lèi)的問(wèn)題中,我們經(jīng)常將0.5作為預(yù)測(cè)結(jié)果的分類(lèi)標(biāo)準(zhǔn),比如將預(yù)測(cè)概率大于0.5分為A類(lèi),預(yù)測(cè)概率小于0.5分為B類(lèi),這里的0.5就是分類(lèi)閾值。

在二分類(lèi)問(wèn)題中,假如預(yù)測(cè)一個(gè)樣本為A的概率為p,那么它為B的概率為1-p,而p/(1-p)表示兩類(lèi)可能性的比,即幾率(odds),或稱(chēng)為優(yōu)勢(shì)比。如果p/(1-p)>1,我們認(rèn)為該樣本是A類(lèi)的幾率大于B。然而,在一個(gè)數(shù)據(jù)集中正負(fù)樣本比例不相同時(shí),此時(shí)會(huì)有一個(gè)觀測(cè)幾率,假設(shè)在數(shù)據(jù)集中有m個(gè)A樣本,n個(gè)B樣本,那么觀測(cè)幾率為m/n(樣本均衡的情況下觀測(cè)幾率為1)。

在算法分類(lèi)過(guò)程中,如果預(yù)測(cè)幾率p/(1-p)大于實(shí)際的觀測(cè)幾率m/n,此時(shí)我們才把樣本分類(lèi)為A,而不是以0.5作為分類(lèi)閾值(樣本均衡情況下以0.5作為閾值)
用公式表示:p/(1-p)>m/n
計(jì)算結(jié)果得到p>m/(m+n)
此時(shí)只有當(dāng)p大于m/(m+n)時(shí),預(yù)測(cè)結(jié)果為A類(lèi),這里m/(m+n) 取代0.5成為新的分類(lèi)閾值。

借助以上的原理,在分類(lèi)學(xué)習(xí)中面對(duì)樣本不均衡時(shí),我們可以采用原有不均衡的樣本進(jìn)行學(xué)習(xí),然后通過(guò)改變決策規(guī)則來(lái)做分類(lèi),比如在樣本均衡時(shí)我們0.5作為分類(lèi)閾值,而在樣本不均衡的情況下我們可以規(guī)定預(yù)測(cè)概率需要達(dá)到0.8

參考原文:https://www.cnblogs.com/wkslearner/p/8870673.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容