采樣——解決數(shù)據(jù)類別不平衡問題

概念

采樣,也稱為取樣、抽樣。是指從總體中抽取個體或樣品的過程,也即對總體進(jìn)行試驗或觀測的過程。

基本定理

每一個樣本都有相同的概率被采用進(jìn)入試樣中,最簡單的采樣方式為均勻采樣。

信息論中的采樣定理,又稱香農(nóng)采樣定理、奈奎斯特采樣定理。
是指把連續(xù)的模擬量用一個個離散的點來表示。

原則

  • 減熵性(Entropy Reduction):變換后的概率分布始終小于變換前的概率分布
  • 保序性(Order Preservation):元素排列的順序不變
  • 保斜率性(Slope Preservation):分布的“斜率”保持不變

組織形式

采樣分隨機(jī)抽樣非隨機(jī)抽樣兩種類型。

  • 前者指遵照隨機(jī)化原則從總體中抽取樣本的抽樣方法,它不帶任何主觀性,包括 簡單隨機(jī)抽樣 、系統(tǒng)抽樣、整群抽樣和分層抽樣等組織形式。
  • 后者是一種憑研究者的觀點、經(jīng)驗或者有關(guān)知識來抽取樣本的方法,帶有明顯主觀色彩,包括偶遇抽樣、判斷抽樣、等額抽樣、滾雪球抽樣等組織形式。

組織形式不同,采樣的平均誤差、效果也不同。

使用場景

  • 不平衡數(shù)據(jù)集問題(機(jī)器學(xué)習(xí))
  • 圖像的放大縮小問題(深度學(xué)習(xí)/CV)
  • 音視頻問題(信號領(lǐng)域)

采樣的一些分類

  • 過采樣 (oversampling)欠采樣 (undersampling)
  • 上采樣(upsampling)/圖像插值(interpolating)下采樣(subsampled)
  • 降采樣(downsampled)子采樣/次級采樣(subsampling)

采樣算法(得到一個用于采樣的概率向量P)

過采樣
  • Synthetic Minority Oversampling Technique (SMOTE)
  • Border-line SMOTE
  • Adaptive Synthetic (ADASYN)
欠采樣
  • EasyEnsemble
  • BalanceCascade
  • NearMiss
  • Tomek’s links (Tomek)
  • Edited data set using nearest neighbours (ENN)
Top-K(前K大)

在采樣前將輸出的概率分布截斷,取出概率最大的k個特征構(gòu)成一個集合,然后將這個子集詞的概率再歸一化,最后從新的概率分布中采樣


top-k
Nucleus 核采樣

也是考慮前若干個概率最大的詞,不過以一種概率累計式的方法


Nucleus
Tempered

在原概率上增加一個溫度項,即

Tempered

Tempered Top-k采樣
Tempered Top-k采樣
Thompson(湯普森)采樣
蓄水池算法
MCMC算法
蒙特卡羅算法

蒙特卡羅方法 ( Monte Carlo method ),也稱 統(tǒng)計模擬方法 ,是指使用 隨機(jī)數(shù) (或更常見的 偽隨機(jī)數(shù) )來解決很多計算問題的方法。是在1940年代中期,由于科學(xué)技術(shù)的發(fā)展和電子計算機(jī)的發(fā)明,而提出的一種以概率統(tǒng)計理論為指導(dǎo)的數(shù)值計算方法,與它對應(yīng)的是 確定性算法。
20世紀(jì)40年代,在科學(xué)家 馮·諾伊曼 、斯塔尼斯拉夫·烏拉姆 和 尼古拉斯·梅特羅波利斯 于 洛斯阿拉莫斯國家實驗室 為核武器計劃工作時,發(fā)明了 蒙特卡羅方法,因為烏拉姆的叔叔經(jīng)常在 摩納哥 的 蒙特卡洛賭場 輸錢得名。
蒙特卡洛對某一種分布的采樣方法有直接采樣、接受拒絕采樣與重要性采樣三種。

  • 馬爾科夫鏈
  • 馬爾科夫鏈蒙特卡洛法
Gibbs Sampling(多元數(shù)據(jù))

不平衡數(shù)據(jù)獲取

imblearn.datasets 包,該包與sklearn.datasets 包形成了很好的互補(bǔ)。
其主要有以下兩個功能:

  • 提供一系列的不平衡數(shù)據(jù)集來實現(xiàn)測試
    fetch_datasets允許獲取27個不均衡且二值化的數(shù)據(jù)集
  • 提供一種工具將原始的平衡數(shù)據(jù)轉(zhuǎn)換為不平衡數(shù)據(jù)
    make_imbalance方法可以使得原始的數(shù)據(jù)集變?yōu)椴黄胶獾臄?shù)據(jù)集,主要是通過ratio參數(shù)進(jìn)行控制

。。。更新中


參考文章

  1. 降采樣,過采樣,欠采樣,子采樣,下采樣,上采樣【轉(zhuǎn)自EDNChina】
  2. 數(shù)據(jù)預(yù)處理--上采樣(過采樣)與下采樣(降采樣)
  3. 機(jī)器學(xué)習(xí)之類別不平衡問題 (3) —— 采樣方法
  4. 圖像重采樣(上下采樣)
  5. 圖像子采樣
  6. 【音視頻基礎(chǔ)】(十四):YUV顏色空間之圖像子采樣
  7. 香儂讀 | 采樣算法哪家強(qiáng):一個針對主流采樣算法的比較
  8. 路徑規(guī)劃 | 隨機(jī)采樣算法:PRM、RRT、RRT-Connect、RRT*
  9. MCMC等采樣算法
  10. 蒙特卡羅方法采樣算法
  11. 一文看懂蒙特卡洛采樣方法
  12. 蒙特卡洛采樣_如何快速理解馬爾科夫鏈蒙特卡洛法?
  13. 推薦算法之Thompson(湯普森)采樣
  14. 采樣方法(Sampling Method)
  15. 抽樣的方法有哪六種
  16. 彭松森,崔永剛主編,統(tǒng)計學(xué),濟(jì)南出版社,2003.06,第210頁
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容