《Python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營(yíng) 第2版》讀書筆記

一、樣本不均衡的表現(xiàn)及影響

樣本類別分布不均衡主要出現(xiàn)在與分類相關(guān)的建模問(wèn)題上，所謂的不均衡指的是不同類別的樣本量差異非常大。
樣本類別分布不均衡從數(shù)據(jù)規(guī)模上可以分為大數(shù)據(jù)分布不均衡和小數(shù)據(jù)分布不均衡兩種。
? 大數(shù)據(jù)分布不均衡；這種情況下整體數(shù)據(jù)規(guī)模大，只是其中的小樣本類的占比較少。但是從每個(gè)特征的分布來(lái)看，小樣本也覆蓋了大部分或全部的特征。例如，在擁有1000萬(wàn)條記錄的數(shù)據(jù)集中，其中占比50萬(wàn)條的少數(shù)分類樣本便于屬于這種情況。
? 小數(shù)據(jù)分布不均衡；這種情況下整體數(shù)據(jù)規(guī)模小，并且占據(jù)少量樣本比例的分類數(shù)量也少，這會(huì)導(dǎo)致特征分布的嚴(yán)重不均衡。例如，擁有1000條數(shù)據(jù)樣本的數(shù)據(jù)集中，占有10條樣本的分類，其特征無(wú)論如何擬合也無(wú)法實(shí)現(xiàn)完整特征值的覆蓋，此時(shí)屬于嚴(yán)重的數(shù)據(jù)樣本分布不均衡。
影響：樣本分布不均衡將導(dǎo)致樣本量少的分類所包含的特征過(guò)少，并很難從中提取規(guī)律。即使得到分類模型，也容易產(chǎn)生過(guò)度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過(guò)擬合的問(wèn)題。當(dāng)模型應(yīng)用到新的數(shù)據(jù)上時(shí)，模型的準(zhǔn)確性和健壯性將很差。

二、樣本不均衡的解決方案

通過(guò)過(guò)抽樣和欠抽樣解決樣本不均衡
過(guò)抽樣：又稱上采樣（over-sampling），通過(guò)增加分類樣本量較少的樣本來(lái)實(shí)現(xiàn)均衡，如直接復(fù)制少數(shù)樣本增加記錄，缺點(diǎn)是可能會(huì)導(dǎo)致過(guò)擬合
欠抽樣：又稱下采樣（under-sampling），通過(guò)減少分類樣本量較多的樣本來(lái)實(shí)現(xiàn)均衡，如直接刪除樣本，缺點(diǎn)是會(huì)丟失信息
通過(guò)正負(fù)樣本的懲罰權(quán)重解決樣本不均衡
通過(guò)對(duì)不同分類賦予不同的權(quán)重，來(lái)解決樣本均衡問(wèn)題
通過(guò)組合/集成方法解決樣本不均衡
在每次生成訓(xùn)練集時(shí)使用所有分類中的小樣本量，同時(shí)從分類中的大樣本量中隨機(jī)抽取數(shù)據(jù)來(lái)與小樣本量合并構(gòu)成訓(xùn)練集，這樣反復(fù)多次會(huì)得到很多訓(xùn)練集和訓(xùn)練模型。最后在應(yīng)用時(shí)，使用組合方法（例如投票、加權(quán)投票等）產(chǎn)生分類預(yù)測(cè)結(jié)果。
通過(guò)特征選擇解決樣本不均衡
沒(méi)有理解……

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

數(shù)據(jù)預(yù)處理-樣本均衡

數(shù)據(jù)預(yù)處理-樣本均衡

一、樣本不均衡的表現(xiàn)及影響

二、樣本不均衡的解決方案

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

數(shù)據(jù)預(yù)處理-樣本均衡

一、樣本不均衡的表現(xiàn)及影響

二、樣本不均衡的解決方案

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av