2019-01-31 “人工數(shù)據(jù)合成”(artificial data synthesis)

人工數(shù)據(jù)合成的概念通常包含兩種不同的變體:第一種是白手起家創(chuàng)造新的數(shù)據(jù);第二種是已經(jīng)有了一小部分帶標簽的訓練集,然后擴充為一個大的訓練集

人工數(shù)據(jù)合成
人工數(shù)據(jù)合成

字符識別的更大的訓練集: 現(xiàn)代計算機通常都有一個很大的字體庫,庫中有很多不同類型的字體,然后將字體粘貼到其他隨機的背景圖像前面(第一種)。然后模糊操作讓圖像變形,比如均勻等比例縮放或者一些旋轉(zhuǎn)操作等等(第二種)。

語音識別的更大的訓練集:自動地為純凈的音頻片段添加這些不同的背景聲音(高斯隨機噪聲?)

人工數(shù)據(jù)合成

建議:

1.產(chǎn)生大量人工訓練樣本之前,通常最好應該先保證你已經(jīng)有了一個低偏差的分類器,這樣得到大量的數(shù)據(jù)才真的會起作用

2.考慮要付出多少工作量來獲得10倍于我們現(xiàn)有的數(shù)據(jù)量

3."眾包"(crowd sourcing),雇傭標記人幫你為數(shù)據(jù)加上標簽

建議
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • 聲明:作者翻譯論文僅為學習,如有侵權(quán)請聯(lián)系作者刪除博文,謝謝! 翻譯論文匯總:https://github.com...
    SnailTyan閱讀 12,746評論 1 27
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 32,284評論 2 89
  • 今早看了一篇微文——《你的孩子不需要一個完美媽媽,他們更需要一個快樂媽媽》,媽媽是一個能量場,所言所行對孩...
    靈妹妹1026閱讀 149評論 0 0
  • 越是碎片化的時代,越需要系統(tǒng)學習——特訓營第三天。不同于之前,今天有充足的時間可以留給特訓營。躺在床上,回...
    cium_ead3閱讀 228評論 0 0
  • 相知相許,志趣相投,十年通信與苦戀,終于贏來短暫的恩愛纏綿。然而,幸福的時光太短,貧病交迫的生活,竟導致朱生豪撒手...
    后羿不射日閱讀 1,382評論 0 36

友情鏈接更多精彩內(nèi)容