?在分類問題中,經(jīng)常會遇到分類數(shù)據(jù)不均衡的情況。在這類task中,直接對目標(biāo)進(jìn)行訓(xùn)練,會導(dǎo)致模型傾向于將樣本分為majority的那類,這經(jīng)常會導(dǎo)致minority的類別擁有很低的recall。(當(dāng)然,分類效果的低下,也跟 class overlap以及small disjuncts 有關(guān)。)
?undersampling是一個常用的手段(也有不少的場景以及數(shù)據(jù)環(huán)境下,undersampling去除了一些redundant數(shù)據(jù),提升了效果,但是本身過程是unsupervised,風(fēng)險不可控制)(注意,假設(shè)被抽樣事件為z,只有當(dāng)y與z相對于x條件獨立時,才有p(y|x, z) = p(y|x),也就是說,只有無差別采樣,才能保證條件概率不變,但是無差別采樣,無法改變正負(fù)樣本比例【正負(fù)樣本被同概率采樣】)[1]
?關(guān)于采樣率對后驗概率的影響:

Fig.1 P為原數(shù)據(jù)集后驗概率,Ps為采樣后數(shù)據(jù)集的后驗概率,beta為采樣率(負(fù)樣本undersampling)
?Fig.1 可以看出來,真實的后驗概率越低,對負(fù)類負(fù)采樣*對其后驗的影響越大。

Fig.2 采樣對不同overlap數(shù)據(jù)的影響。圖為兩個單變量分類。兩個類別對應(yīng)的x分別服從(負(fù))N(0,sigma),(正)N(u,sigma),beta為對負(fù)樣本的負(fù)采樣比例,兩圖sigma都為3,左圖u=3,右圖u=15
?Fig.2 可以看出,在overlap較大的情況下(左圖),采樣會對后驗概率產(chǎn)生更大影響。
refer:
[1] When is undersampling effective in unbalanced classification tasks?(http://www.oliviercaelen.be/doc/ECML_under_v4.pdf)