《Python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營(yíng) 第2版》讀書筆記
一、樣本不均衡的表現(xiàn)及影響
樣本類別分布不均衡主要出現(xiàn)在與分類相關(guān)的建模問(wèn)題上,所謂的不均衡指的是不同類別的樣本量差異非常大。
樣本類別分布不均衡從數(shù)據(jù)規(guī)模上可以分為大數(shù)據(jù)分布不均衡和小數(shù)據(jù)分布不均衡兩種。
? 大數(shù)據(jù)分布不均衡;這種情況下整體數(shù)據(jù)規(guī)模大,只是其中的小樣本類的占比較少。但是從每個(gè)特征的分布來(lái)看,小樣本也覆蓋了大部分或全部的特征。例如,在擁有1000萬(wàn)條記錄的數(shù)據(jù)集中,其中占比50萬(wàn)條的少數(shù)分類樣本便于屬于這種情況。
? 小數(shù)據(jù)分布不均衡;這種情況下整體數(shù)據(jù)規(guī)模小,并且占據(jù)少量樣本比例的分類數(shù)量也少,這會(huì)導(dǎo)致特征分布的嚴(yán)重不均衡。例如,擁有1000條數(shù)據(jù)樣本的數(shù)據(jù)集中,占有10條樣本的分類,其特征無(wú)論如何擬合也無(wú)法實(shí)現(xiàn)完整特征值的覆蓋,此時(shí)屬于嚴(yán)重的數(shù)據(jù)樣本分布不均衡。
影響:樣本分布不均衡將導(dǎo)致樣本量少的分類所包含的特征過(guò)少,并很難從中提取規(guī)律。即使得到分類模型,也容易產(chǎn)生過(guò)度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過(guò)擬合的問(wèn)題。當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時(shí),模型的準(zhǔn)確性和健壯性將很差。
二、樣本不均衡的解決方案
通過(guò)過(guò)抽樣和欠抽樣解決樣本不均衡
過(guò)抽樣:又稱上采樣(over-sampling),通過(guò)增加分類樣本量較少的樣本來(lái)實(shí)現(xiàn)均衡,如直接復(fù)制少數(shù)樣本增加記錄,缺點(diǎn)是可能會(huì)導(dǎo)致過(guò)擬合
欠抽樣:又稱下采樣(under-sampling),通過(guò)減少分類樣本量較多的樣本來(lái)實(shí)現(xiàn)均衡,如直接刪除樣本,缺點(diǎn)是會(huì)丟失信息通過(guò)正負(fù)樣本的懲罰權(quán)重解決樣本不均衡
通過(guò)對(duì)不同分類賦予不同的權(quán)重,來(lái)解決樣本均衡問(wèn)題通過(guò)組合/集成方法解決樣本不均衡
在每次生成訓(xùn)練集時(shí)使用所有分類中的小樣本量,同時(shí)從分類中的大樣本量中隨機(jī)抽取數(shù)據(jù)來(lái)與小樣本量合并構(gòu)成訓(xùn)練集,這樣反復(fù)多次會(huì)得到很多訓(xùn)練集和訓(xùn)練模型。最后在應(yīng)用時(shí),使用組合方法(例如投票、加權(quán)投票等)產(chǎn)生分類預(yù)測(cè)結(jié)果。通過(guò)特征選擇解決樣本不均衡
沒(méi)有理解……