
Abstract
非平衡數(shù)據(jù)集是一個(gè)在現(xiàn)實(shí)世界應(yīng)用中經(jīng)常發(fā)現(xiàn)的一個(gè)問題,它可能會(huì)給機(jī)器學(xué)習(xí)算法中的分類表現(xiàn)帶來嚴(yán)重的負(fù)面影響。目前有很多的嘗試來處理非平衡數(shù)據(jù)的分類。在這篇文章中,我們同時(shí)從數(shù)據(jù)層面和算法層面給出一些已經(jīng)存在的用來解決非平衡數(shù)據(jù)問題的簡(jiǎn)單綜述。盡管處理非平衡數(shù)據(jù)問題的一個(gè)通常的做法是通過人為的方式,比如超采樣或者降采樣,來重新平衡數(shù)據(jù),一些研究者證實(shí)例如修改的支持向量機(jī),基于粗糙集的面向少數(shù)類的規(guī)則學(xué)習(xí)方法,敏感代價(jià)分類器等在非平衡數(shù)據(jù)集上面也表現(xiàn)良好。我們觀察到目前在非平衡數(shù)據(jù)問題上面的研究正趨向于使用混合算法。
關(guān)鍵詞:敏感代價(jià)學(xué)習(xí),非平衡數(shù)據(jù)集,修改的SVM,超采樣,降采樣
1. Introduction
如果一個(gè)數(shù)據(jù)集中某一個(gè)類別的樣本遠(yuǎn)遠(yuǎn)多余其他的類別,那么我們就稱這種數(shù)據(jù)為非平衡數(shù)據(jù)。當(dāng)數(shù)據(jù)中至少一個(gè)類別代表了訓(xùn)練樣例中很少的數(shù)量(稱為少數(shù)類),而其他類別組成了大多數(shù)時(shí),數(shù)據(jù)就會(huì)失衡。在這種狀況下,分類器能夠在多數(shù)類上面有很好的準(zhǔn)確率,但是在少數(shù)類上準(zhǔn)確率卻很糟糕,主要是因?yàn)楦蟮亩鄶?shù)類在傳統(tǒng)訓(xùn)練標(biāo)準(zhǔn)上面的影響。很多原始的分類算法追求最小化錯(cuò)誤率:不準(zhǔn)確預(yù)測(cè)類別標(biāo)記的百分比。他們往往忽視了不同種類的分類錯(cuò)誤之間的不同。特別地,他們暗自的假定了所有的分類錯(cuò)誤都有著相同的代價(jià)。
在很多現(xiàn)實(shí)世界的應(yīng)用中,這種假定是不正確的。不同分類錯(cuò)誤之間的差異可能是相當(dāng)大的。例如,在癌癥的醫(yī)療診斷中,如果我們把有癌癥視為正類別,無癌癥(健康)視為負(fù)類別,那么漏診(病人本身得了癌癥,但是卻預(yù)測(cè)其沒得,這也被稱為“假陰性”,false negtive)的代價(jià)要比誤診(假陽(yáng)性,false positive)嚴(yán)重得多。
病人可能失去他的生命僅僅是因?yàn)檠诱`了最佳的診斷和治療階段。同樣地,如果攜帶炸彈視為正類別,那么漏檢掉一個(gè)攜帶炸彈上飛機(jī)的恐怖分子要比搜查一個(gè)無辜的人代價(jià)大得多。
非平衡數(shù)據(jù)問題在現(xiàn)實(shí)世界的很多應(yīng)用中都有出現(xiàn),例如文本歸類,故障監(jiān)測(cè),欺騙檢測(cè),衛(wèi)星圖像中的油田漏油監(jiān)測(cè),毒理學(xué),文化建模,醫(yī)療診斷等[1]。很多關(guān)于非平衡數(shù)據(jù)集的研究論文通常都認(rèn)為,由于不相等的類別分配,已經(jīng)存在的分類器的表現(xiàn)都偏向于多數(shù)類?,F(xiàn)存分類算法在非平衡數(shù)據(jù)集上表現(xiàn)糟糕的原因主要有這幾點(diǎn):1.它們是準(zhǔn)確率驅(qū)動(dòng)的,它們的目標(biāo)是最小化整體的錯(cuò)誤率,這樣一來少數(shù)類在其中起到的作用就很小了。2.它們假設(shè)數(shù)據(jù)中所有的類別都有同等的分配。3.它們同時(shí)假設(shè)不同類別分類錯(cuò)誤的代價(jià)是相同的[2]。由于數(shù)據(jù)的不平衡,數(shù)據(jù)挖掘?qū)W習(xí)算法往往產(chǎn)生退化的模型,它們并沒有把少數(shù)類考慮進(jìn)去,因?yàn)榇蠖鄶?shù)數(shù)據(jù)挖掘算法都是假設(shè)數(shù)據(jù)是平衡的。
很多非平衡數(shù)據(jù)分類問題的解決方案之前都有人同時(shí)從數(shù)據(jù)層面和算法層面上提出過[3]。在數(shù)據(jù)層面,這些解決方法包括多種不同形式的重采樣,例如隨機(jī)超采樣放回,隨機(jī)降采樣,直接超采樣(沒有新的樣例產(chǎn)生,但是樣例被替換的選擇是知道的,而不是隨機(jī)的),直接降采樣(同樣樣例被去除的選擇是知道的),新樣本迭代方式被告知的超采樣以及以上所有技術(shù)的結(jié)合。在算法層面,解決方法包括調(diào)整不同類別的代價(jià)以反向的削減類別不平衡影響,調(diào)整樹的葉節(jié)點(diǎn)的概率評(píng)估(當(dāng)使用決策樹時(shí)),調(diào)整決策閾值,基于識(shí)別(從一個(gè)類中學(xué)習(xí))而不是基于辨別(兩種類別)的學(xué)習(xí)。
解決非平衡數(shù)據(jù)最普遍的技術(shù)包括重新調(diào)整訓(xùn)練接,使用代價(jià)敏感的分類器和雪球法。最近,不少在非平衡數(shù)據(jù)上有很好表現(xiàn)的方法被提出來了。這些方法包括修改的SVMs,K臨近法(KNN),神經(jīng)網(wǎng)絡(luò),遺傳編程,基于粗糙集的算法,概率決策樹和機(jī)器學(xué)習(xí)方法。下一節(jié)將介紹各種方法的細(xì)節(jié)。
2. Sampling Methods
一種簡(jiǎn)單的數(shù)據(jù)層面的平衡不同類別的方法就是對(duì)原始數(shù)據(jù)集進(jìn)行重采樣,要么對(duì)少數(shù)類進(jìn)行超采樣,或者對(duì)多數(shù)類進(jìn)行降采樣,直到不同類別的數(shù)據(jù)差不多是相同的為止。這兩種策略能夠被用在任何學(xué)習(xí)系統(tǒng)中,因?yàn)樗鼈兿喈?dāng)于是一種預(yù)處理階段,允許學(xué)習(xí)系統(tǒng)來接收訓(xùn)練實(shí)例就好像他們是屬于一個(gè)已經(jīng)平衡的數(shù)據(jù)集。這樣一來,系統(tǒng)由于每一類別不同比例的訓(xùn)練樣本而帶來的對(duì)于多數(shù)類的任何偏向都能夠被削減和抑制了。
Hulse等人[4]提出重采樣方法的作用取決于很多的因素……(待更新)
Reference
- [Journal Paper] An overview of classification algorithms for imbalanced datasets,IJETAE_0412_07
- [Data Science] Learning from Imbalanced Classes,(Jupyter,Notebooks)
- [Quora] In classification, how do you handle an unbalanced training set?
- [Github] 不平衡數(shù)據(jù)分類(Imbalanced data classification)
- [SimaFore] Predictive analytics on unbalanced data: classification performance
- [Paper] Overview of classification algorithms for unbalanced data
- [IEEE] Unbalanced Data Classification Using <i>extreme outlier</i> Elimination and Sampling Techniques for Fraud Detection
- [Analytics Vidhya] Practical Guide to deal with Imbalanced Classification Problems in R
- [推酷] 用R語(yǔ)言實(shí)現(xiàn)對(duì)不平衡數(shù)據(jù)的四種處理方法
- [CSDN] 在分類中如何處理訓(xùn)練集中不平衡問題 1 | 2
- [機(jī)器之心] 從重采樣到數(shù)據(jù)合成:如何處理機(jī)器學(xué)習(xí)中的不平衡分類問題?
(注:感謝您的閱讀,希望本文對(duì)您有所幫助。如果覺得不錯(cuò)歡迎分享轉(zhuǎn)載,但請(qǐng)先點(diǎn)擊 這里 獲取授權(quán)。本文由 版權(quán)印 提供保護(hù),禁止任何形式的未授權(quán)違規(guī)轉(zhuǎn)載,謝謝!)