2019.12.16-2019.12.30

總結(jié):

  1. 近期的工作一直圍繞《AutoAugment:Learning Augmentation Strategies from Data》和《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》兩篇谷歌大腦的文章來開展,希望通過對音頻文件的數(shù)據(jù)進(jìn)行變換操作來提高模型魯棒性,進(jìn)而提高識別率。
  2. 我相信上述方法會是有效的,在實(shí)驗(yàn)中沒有調(diào)整參數(shù),只是隨機(jī)對音頻數(shù)據(jù)進(jìn)行時域掩蔽、頻域掩蔽、添加噪聲等變換,也取得了和不變換相近的正確率。但近期的實(shí)驗(yàn)結(jié)果并沒有突破性的進(jìn)展,計劃將模型進(jìn)行調(diào)參,將設(shè)備B的正確率提高到60%左右。
  3. 有一個潛在的問題,就是對音頻數(shù)據(jù)的變換并不是在提完特征的基礎(chǔ)上進(jìn)行操作的,因此程序的效率并不高,每次都是進(jìn)行變換后再提取mel特征,這將是之后要解決的問題。
  4. 半個月以來的工作量有點(diǎn)小,接下來的半個月要在調(diào)好實(shí)驗(yàn)的基礎(chǔ)上繼續(xù)多看論文。

2019.12.16

  1. 修改了裁剪語譜圖的機(jī)制,隨機(jī)挑選0-127一個位置作為裁剪中心,再隨機(jī)一個裁剪幅度,進(jìn)行裁剪操作,運(yùn)行查看結(jié)果。預(yù)測正確率最高能到70%,還是不理想。
  2. 精讀《AutoAugment:Learning Augmentation Strategies from Data》
  3. 查到了《Fast-AutoAugment》和《Randaugment》的代碼。

2019.12.17

與老師匯報,發(fā)現(xiàn)自己最近方向有些跑偏,整理下思路:
① 出發(fā)點(diǎn):A設(shè)備數(shù)據(jù)量太大,B、C設(shè)備數(shù)據(jù)量太小,想提高B、C的識別率,而不是整體訓(xùn)練得到一個整體的識別率。
② 方法:
(1)可以用數(shù)據(jù)生成的方式,提高B、C設(shè)備的數(shù)據(jù)量。
(2)能不能從A中借鑒到有用的信息,來應(yīng)用到B、C的識別過程中,以提高識別率。
③ 明確的要點(diǎn):
(1)使用開發(fā)集的數(shù)據(jù)作為測試數(shù)據(jù),而不使用官方的測試集,因?yàn)闇y試集不公布標(biāo)簽
(2)使用官方的baseline作為系統(tǒng)級別基線,再使用一個框架,生成框架的基線,最后再填入自己的方法,提升B、C的識別率。

2019.12.18

  1. 繼續(xù)使用McDonnell的框架,單獨(dú)跑設(shè)備B,正確率最高55.74%。單獨(dú)跑設(shè)備C,正確率59.04%。
  2. 在矩陣上做AutoAugment的方法,正確率達(dá)到72.88%,并不是十分理想。

2019.12.19

  1. 使用McDonnell框架,將設(shè)備B、C的數(shù)據(jù)一齊跑,正確率在56.85%
  2. 使用McDonnell框架,將設(shè)備B、C的數(shù)據(jù)一齊跑,并加入mixup,正確率在58.33%

2019.12.20

如何使用 Google 的 AutoAugment 改進(jìn)圖像分類器
精讀《AutoAugment:Learning Augmentation Strategies from Data》

2019.12.21

有一個猜想,如果設(shè)備B、C是因?yàn)橐袅恳羲囟O(shè)備A的數(shù)據(jù)不同,那么如果我們提高設(shè)備A的聲音,會不會對B的識別有幫助?因此想做一個對比試驗(yàn),只訓(xùn)練A的數(shù)據(jù),再訓(xùn)練增大音量的A的數(shù)據(jù)。A數(shù)據(jù)的模型命名為:trainingA_normal,A數(shù)據(jù)音量增大的模型命名為:trainingA_powerUp。

2019.12.22

今天發(fā)現(xiàn),只用設(shè)備A數(shù)據(jù)作為訓(xùn)練集,設(shè)備B數(shù)據(jù)作為驗(yàn)證集,正確率不超過30%,看來用的模型還是記錄數(shù)據(jù),而沒做到分析數(shù)據(jù)。
想知道,讀入音頻,用python庫會得到一個矩陣,那這些數(shù)據(jù)代表什么意義。
音頻文件是如何記錄信息的?

2019.12.24

發(fā)現(xiàn)GitHub一個做語音數(shù)據(jù)增強(qiáng)的代碼。https://github.com/iver56/audiomentations
跑一個實(shí)驗(yàn),用Audio增強(qiáng)的方法生成設(shè)備B的數(shù)據(jù),選5種增強(qiáng)的方法,每種生成2個,因此每個音頻共生成10個文件。
之前只用訓(xùn)練集B作為訓(xùn)練集,正確率在55.74%
還是對比mixup,同時跑兩個實(shí)驗(yàn)。

2019.12.26

使用Audio增強(qiáng),設(shè)備B的正確率可達(dá)到57.41%,如果添加mixup,正確率可達(dá)到57.78%。相比于不添加AudioAugment,有大約2%的增強(qiáng)。

2019.12.28

閱讀《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》

2019.12.29

嘗試跑一下SpecAugment,做一個對比試驗(yàn),是否添加deltas。
SpecAugment的策略:
① 時間扭曲:
② 頻率掩蔽:[f_{0}, f_0 + f)被掩蓋,f0-F均勻分布中的取的參數(shù),f_0是從[0, v-f)中去的數(shù),v是梅爾頻率通道數(shù)。
③ 時間掩蔽:[t_0, t_0 + t)連續(xù)時間的掩蓋,t是取自0-T,T是時間掩蓋參數(shù),t_0取自[0, \tau -t)

測試了一下發(fā)現(xiàn),SpecAugment的效果并不好,只有10%。
分析了一下原因,將所有的訓(xùn)練集都進(jìn)行了SpecAugment操作,這樣沒有原始的訓(xùn)練集,訓(xùn)練出來的結(jié)果肯定不好,因此設(shè)置對SpecAugment的操作設(shè)置概率。
現(xiàn)在設(shè)置時間扭曲的概率為0.5, 頻率掩蔽的概率為0.3,時間掩蔽的概率為0.3,訓(xùn)練集為train_B,驗(yàn)證集為val_B,沒有添加deltas,沒有進(jìn)行Mixup,沒有將時間維度從431隨機(jī)取到400,模型命名為SpecAugment。如果正確率能到60%左右,則說明該方法很有作用。
對比試驗(yàn),添加Mixup,模型命名為SpecAugment_Mixup。

2019.12.30

昨天的測試,效果很差,而且發(fā)現(xiàn)訓(xùn)練時間會隨著epoch的增加而增加,該方案暫時停止。


近期還是打算圍繞這個工作開展https://github.com/iver56/audiomentations
之前嘗試過,發(fā)現(xiàn)有一定的效果,爭取能將這個效果最大化。
這個增強(qiáng)是在音頻sample上進(jìn)行的,而不是在提完的特征上進(jìn)行的,因此效率是一個問題。
①AddImpulseResponse:添加隨機(jī)脈沖響應(yīng)卷積音頻。
②FrequencyMask:頻域遮蔽
③TimeMask:時域遮蔽
④AddGaussianSNR:使用隨機(jī)信噪比(SNR)將高斯噪聲添加到Sample
⑤AddGaussianNoise:添加高斯噪聲
⑥TimeStretch:快慢放
⑦Shift:前移或者后移音頻。
⑧Normalize:峰值歸一化。
⑨Trim:修剪音頻信號的前導(dǎo)和尾隨靜音
⑩Resample:重采樣
⑾ClippingDistortion:通過剪切隨機(jī)百分比的點(diǎn)使信號失真

在做FrequencyMask時,用librosa提取音頻報錯:“ Audio buffer is not finite everywhere”
解決參考http://www.cocoachina.com/articles/93923

2019.12.31

直至今早,程序跑了30個epoch但報錯了,問題出在頻域遮蔽的庫上,因此先取消頻域遮蔽操作,再跑一次。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容