概念
采樣,也稱為取樣、抽樣。是指從總體中抽取個體或樣品的過程,也即對總體進(jìn)行試驗或觀測的過程。
基本定理
每一個樣本都有相同的概率被采用進(jìn)入試樣中,最簡單的采樣方式為均勻采樣。
信息論中的采樣定理,又稱香農(nóng)采樣定理、奈奎斯特采樣定理。
是指把連續(xù)的模擬量用一個個離散的點來表示。
原則
- 減熵性(Entropy Reduction):變換后的概率分布始終小于變換前的概率分布
- 保序性(Order Preservation):元素排列的順序不變
- 保斜率性(Slope Preservation):分布的“斜率”保持不變
組織形式
采樣分隨機(jī)抽樣和非隨機(jī)抽樣兩種類型。
- 前者指遵照隨機(jī)化原則從總體中抽取樣本的抽樣方法,它
不帶任何主觀性,包括 簡單隨機(jī)抽樣 、系統(tǒng)抽樣、整群抽樣和分層抽樣等組織形式。 - 后者是一種憑研究者的觀點、經(jīng)驗或者有關(guān)知識來抽取樣本的方法,
帶有明顯主觀色彩,包括偶遇抽樣、判斷抽樣、等額抽樣、滾雪球抽樣等組織形式。
組織形式不同,采樣的平均誤差、效果也不同。
使用場景
- 不平衡數(shù)據(jù)集問題(機(jī)器學(xué)習(xí))
- 圖像的放大縮小問題(深度學(xué)習(xí)/CV)
- 音視頻問題(信號領(lǐng)域)
采樣的一些分類
-
過采樣 (oversampling)和欠采樣 (undersampling) -
上采樣(upsampling)/圖像插值(interpolating)和下采樣(subsampled) -
降采樣(downsampled)和子采樣/次級采樣(subsampling)
采樣算法(得到一個用于采樣的概率向量P)
過采樣
- Synthetic Minority Oversampling Technique (
SMOTE) - Border-line SMOTE
- Adaptive Synthetic (
ADASYN)
欠采樣
- EasyEnsemble
- BalanceCascade
- NearMiss
- Tomek’s links (
Tomek) - Edited data set using nearest neighbours (
ENN)
Top-K(前K大)
在采樣前將輸出的概率分布截斷,取出概率最大的k個特征構(gòu)成一個集合,然后將這個子集詞的概率再歸一化,最后從新的概率分布中采樣

Nucleus 核采樣
也是考慮前若干個概率最大的詞,不過以一種概率累計式的方法

Tempered
在原概率上增加一個溫度項,即

Tempered Top-k采樣

Thompson(湯普森)采樣
蓄水池算法
MCMC算法
蒙特卡羅算法
蒙特卡羅方法 ( Monte Carlo method ),也稱 統(tǒng)計模擬方法 ,是指使用 隨機(jī)數(shù) (或更常見的 偽隨機(jī)數(shù) )來解決很多計算問題的方法。是在1940年代中期,由于科學(xué)技術(shù)的發(fā)展和電子計算機(jī)的發(fā)明,而提出的一種以概率統(tǒng)計理論為指導(dǎo)的數(shù)值計算方法,與它對應(yīng)的是 確定性算法。
20世紀(jì)40年代,在科學(xué)家 馮·諾伊曼 、斯塔尼斯拉夫·烏拉姆 和 尼古拉斯·梅特羅波利斯 于 洛斯阿拉莫斯國家實驗室 為核武器計劃工作時,發(fā)明了 蒙特卡羅方法,因為烏拉姆的叔叔經(jīng)常在 摩納哥 的 蒙特卡洛賭場 輸錢得名。
蒙特卡洛對某一種分布的采樣方法有直接采樣、接受拒絕采樣與重要性采樣三種。
- 馬爾科夫鏈
- 馬爾科夫鏈蒙特卡洛法
Gibbs Sampling(多元數(shù)據(jù))
不平衡數(shù)據(jù)獲取
imblearn.datasets 包,該包與sklearn.datasets 包形成了很好的互補(bǔ)。
其主要有以下兩個功能:
- 提供一系列的不平衡數(shù)據(jù)集來實現(xiàn)測試
fetch_datasets允許獲取27個不均衡且二值化的數(shù)據(jù)集 - 提供一種工具將原始的平衡數(shù)據(jù)轉(zhuǎn)換為不平衡數(shù)據(jù)
make_imbalance方法可以使得原始的數(shù)據(jù)集變?yōu)椴黄胶獾臄?shù)據(jù)集,主要是通過ratio參數(shù)進(jìn)行控制
。。。更新中
參考文章
- 降采樣,過采樣,欠采樣,子采樣,下采樣,上采樣【轉(zhuǎn)自EDNChina】
- 數(shù)據(jù)預(yù)處理--上采樣(過采樣)與下采樣(降采樣)
- 機(jī)器學(xué)習(xí)之類別不平衡問題 (3) —— 采樣方法
- 圖像重采樣(上下采樣)
- 圖像子采樣
- 【音視頻基礎(chǔ)】(十四):YUV顏色空間之圖像子采樣
- 香儂讀 | 采樣算法哪家強(qiáng):一個針對主流采樣算法的比較
- 路徑規(guī)劃 | 隨機(jī)采樣算法:PRM、RRT、RRT-Connect、RRT*
- MCMC等采樣算法
- 蒙特卡羅方法采樣算法
- 一文看懂蒙特卡洛采樣方法
- 蒙特卡洛采樣_如何快速理解馬爾科夫鏈蒙特卡洛法?
- 推薦算法之Thompson(湯普森)采樣
- 采樣方法(Sampling Method)
- 抽樣的方法有哪六種
- 彭松森,崔永剛主編,統(tǒng)計學(xué),濟(jì)南出版社,2003.06,第210頁