Abstract

非平衡數(shù)據(jù)集是一個(gè)在現(xiàn)實(shí)世界應(yīng)用中經(jīng)常發(fā)現(xiàn)的一個(gè)問題，它可能會(huì)給機(jī)器學(xué)習(xí)算法中的分類表現(xiàn)帶來嚴(yán)重的負(fù)面影響。目前有很多的嘗試來處理非平衡數(shù)據(jù)的分類。在這篇文章中，我們同時(shí)從數(shù)據(jù)層面和算法層面給出一些已經(jīng)存在的用來解決非平衡數(shù)據(jù)問題的簡(jiǎn)單綜述。盡管處理非平衡數(shù)據(jù)問題的一個(gè)通常的做法是通過人為的方式，比如超采樣或者降采樣，來重新平衡數(shù)據(jù)，一些研究者證實(shí)例如修改的支持向量機(jī)，基于粗糙集的面向少數(shù)類的規(guī)則學(xué)習(xí)方法，敏感代價(jià)分類器等在非平衡數(shù)據(jù)集上面也表現(xiàn)良好。我們觀察到目前在非平衡數(shù)據(jù)問題上面的研究正趨向于使用混合算法。

關(guān)鍵詞：敏感代價(jià)學(xué)習(xí)，非平衡數(shù)據(jù)集，修改的SVM，超采樣，降采樣

1. Introduction

如果一個(gè)數(shù)據(jù)集中某一個(gè)類別的樣本遠(yuǎn)遠(yuǎn)多余其他的類別，那么我們就稱這種數(shù)據(jù)為非平衡數(shù)據(jù)。當(dāng)數(shù)據(jù)中至少一個(gè)類別代表了訓(xùn)練樣例中很少的數(shù)量（稱為少數(shù)類），而其他類別組成了大多數(shù)時(shí)，數(shù)據(jù)就會(huì)失衡。在這種狀況下，分類器能夠在多數(shù)類上面有很好的準(zhǔn)確率，但是在少數(shù)類上準(zhǔn)確率卻很糟糕，主要是因?yàn)楦蟮亩鄶?shù)類在傳統(tǒng)訓(xùn)練標(biāo)準(zhǔn)上面的影響。很多原始的分類算法追求最小化錯(cuò)誤率：不準(zhǔn)確預(yù)測(cè)類別標(biāo)記的百分比。他們往往忽視了不同種類的分類錯(cuò)誤之間的不同。特別地，他們暗自的假定了所有的分類錯(cuò)誤都有著相同的代價(jià)。

在很多現(xiàn)實(shí)世界的應(yīng)用中，這種假定是不正確的。不同分類錯(cuò)誤之間的差異可能是相當(dāng)大的。例如，在癌癥的醫(yī)療診斷中，如果我們把有癌癥視為正類別，無癌癥（健康）視為負(fù)類別，那么漏診（病人本身得了癌癥，但是卻預(yù)測(cè)其沒得，這也被稱為“假陰性”，false negtive）的代價(jià)要比誤診（假陽(yáng)性，false positive）嚴(yán)重得多。

病人可能失去他的生命僅僅是因?yàn)檠诱`了最佳的診斷和治療階段。同樣地，如果攜帶炸彈視為正類別，那么漏檢掉一個(gè)攜帶炸彈上飛機(jī)的恐怖分子要比搜查一個(gè)無辜的人代價(jià)大得多。

非平衡數(shù)據(jù)問題在現(xiàn)實(shí)世界的很多應(yīng)用中都有出現(xiàn)，例如文本歸類，故障監(jiān)測(cè)，欺騙檢測(cè)，衛(wèi)星圖像中的油田漏油監(jiān)測(cè)，毒理學(xué)，文化建模，醫(yī)療診斷等[1]。很多關(guān)于非平衡數(shù)據(jù)集的研究論文通常都認(rèn)為，由于不相等的類別分配，已經(jīng)存在的分類器的表現(xiàn)都偏向于多數(shù)類?，F(xiàn)存分類算法在非平衡數(shù)據(jù)集上表現(xiàn)糟糕的原因主要有這幾點(diǎn)：1.它們是準(zhǔn)確率驅(qū)動(dòng)的，它們的目標(biāo)是最小化整體的錯(cuò)誤率，這樣一來少數(shù)類在其中起到的作用就很小了。2.它們假設(shè)數(shù)據(jù)中所有的類別都有同等的分配。3.它們同時(shí)假設(shè)不同類別分類錯(cuò)誤的代價(jià)是相同的[2]。由于數(shù)據(jù)的不平衡，數(shù)據(jù)挖掘?qū)W習(xí)算法往往產(chǎn)生退化的模型，它們并沒有把少數(shù)類考慮進(jìn)去，因?yàn)榇蠖鄶?shù)數(shù)據(jù)挖掘算法都是假設(shè)數(shù)據(jù)是平衡的。

很多非平衡數(shù)據(jù)分類問題的解決方案之前都有人同時(shí)從數(shù)據(jù)層面和算法層面上提出過[3]。在數(shù)據(jù)層面，這些解決方法包括多種不同形式的重采樣，例如隨機(jī)超采樣放回，隨機(jī)降采樣，直接超采樣（沒有新的樣例產(chǎn)生，但是樣例被替換的選擇是知道的，而不是隨機(jī)的），直接降采樣（同樣樣例被去除的選擇是知道的），新樣本迭代方式被告知的超采樣以及以上所有技術(shù)的結(jié)合。在算法層面，解決方法包括調(diào)整不同類別的代價(jià)以反向的削減類別不平衡影響，調(diào)整樹的葉節(jié)點(diǎn)的概率評(píng)估（當(dāng)使用決策樹時(shí)），調(diào)整決策閾值，基于識(shí)別（從一個(gè)類中學(xué)習(xí)）而不是基于辨別（兩種類別）的學(xué)習(xí)。

解決非平衡數(shù)據(jù)最普遍的技術(shù)包括重新調(diào)整訓(xùn)練接，使用代價(jià)敏感的分類器和雪球法。最近，不少在非平衡數(shù)據(jù)上有很好表現(xiàn)的方法被提出來了。這些方法包括修改的SVMs，K臨近法（KNN），神經(jīng)網(wǎng)絡(luò)，遺傳編程，基于粗糙集的算法，概率決策樹和機(jī)器學(xué)習(xí)方法。下一節(jié)將介紹各種方法的細(xì)節(jié)。

2. Sampling Methods

一種簡(jiǎn)單的數(shù)據(jù)層面的平衡不同類別的方法就是對(duì)原始數(shù)據(jù)集進(jìn)行重采樣，要么對(duì)少數(shù)類進(jìn)行超采樣，或者對(duì)多數(shù)類進(jìn)行降采樣，直到不同類別的數(shù)據(jù)差不多是相同的為止。這兩種策略能夠被用在任何學(xué)習(xí)系統(tǒng)中，因?yàn)樗鼈兿喈?dāng)于是一種預(yù)處理階段，允許學(xué)習(xí)系統(tǒng)來接收訓(xùn)練實(shí)例就好像他們是屬于一個(gè)已經(jīng)平衡的數(shù)據(jù)集。這樣一來，系統(tǒng)由于每一類別不同比例的訓(xùn)練樣本而帶來的對(duì)于多數(shù)類的任何偏向都能夠被削減和抑制了。

Hulse等人[4]提出重采樣方法的作用取決于很多的因素……（待更新）

Reference

[Journal Paper] An overview of classification algorithms for imbalanced datasets，IJETAE_0412_07
[Data Science] Learning from Imbalanced Classes，(Jupyter，Notebooks)
[Quora] In classification, how do you handle an unbalanced training set?
[Github] 不平衡數(shù)據(jù)分類(Imbalanced data classification)
[SimaFore] Predictive analytics on unbalanced data: classification performance
[Paper] Overview of classification algorithms for unbalanced data
[IEEE] Unbalanced Data Classification Using <i>extreme outlier</i> Elimination and Sampling Techniques for Fraud Detection
[Analytics Vidhya] Practical Guide to deal with Imbalanced Classification Problems in R
[推酷] 用R語(yǔ)言實(shí)現(xiàn)對(duì)不平衡數(shù)據(jù)的四種處理方法
[CSDN] 在分類中如何處理訓(xùn)練集中不平衡問題 1 | 2
[機(jī)器之心] 從重采樣到數(shù)據(jù)合成：如何處理機(jī)器學(xué)習(xí)中的不平衡分類問題？

(注：感謝您的閱讀，希望本文對(duì)您有所幫助。如果覺得不錯(cuò)歡迎分享轉(zhuǎn)載，但請(qǐng)先點(diǎn)擊這里獲取授權(quán)。本文由版權(quán)印提供保護(hù)，禁止任何形式的未授權(quán)違規(guī)轉(zhuǎn)載，謝謝！)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)分類算法中怎樣處理非平衡數(shù)據(jù)問題 (更新中)

機(jī)器學(xué)習(xí)分類算法中怎樣處理非平衡數(shù)據(jù)問題 (更新中)

Abstract

1. Introduction

2. Sampling Methods

Reference

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)分類算法中怎樣處理非平衡數(shù)據(jù)問題 (更新中)

Abstract

1. Introduction

2. Sampling Methods

Reference

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av