人工數(shù)據(jù)合成的概念通常包含兩種不同的變體:第一種是白手起家創(chuàng)造新的數(shù)據(jù);第二種是已經(jīng)有了一小部分帶標簽的訓練集,然后擴充為一個大的訓練集

人工數(shù)據(jù)合成

人工數(shù)據(jù)合成
字符識別的更大的訓練集: 現(xiàn)代計算機通常都有一個很大的字體庫,庫中有很多不同類型的字體,然后將字體粘貼到其他隨機的背景圖像前面(第一種)。然后模糊操作讓圖像變形,比如均勻等比例縮放或者一些旋轉(zhuǎn)操作等等(第二種)。
語音識別的更大的訓練集:自動地為純凈的音頻片段添加這些不同的背景聲音(高斯隨機噪聲?)

人工數(shù)據(jù)合成
建議:
1.產(chǎn)生大量人工訓練樣本之前,通常最好應該先保證你已經(jīng)有了一個低偏差的分類器,這樣得到大量的數(shù)據(jù)才真的會起作用
2.考慮要付出多少工作量來獲得10倍于我們現(xiàn)有的數(shù)據(jù)量
3."眾包"(crowd sourcing),雇傭標記人幫你為數(shù)據(jù)加上標簽

建議