模型下載地址:http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz
解壓放到kaldi-trunk/egs下即可,打開終端,鏈接steps和untils(這里改為自己的路徑):
ln -s ~/kaldi-master/egs/wsj/s5/steps ~/kaldi-master/egs/cvte/s5/steps
ln -s ~/kaldi-master/egs/wsj/s5/utils ~/kaldi-master/egs/cvte/s5/utils
識別效果如下:

效果還是不錯的,而且這10個(gè)測試的語音文件口音是相當(dāng)?shù)闹匕 ?/p>
為了更直觀的看對比效果,我把thchs30例子中的10個(gè)句子拿過來進(jìn)行識別,效果如下:

下圖是thchs30的DNN識別結(jié)果:

源文件:

對比下來,cvte開源的模型要比thchs30的dnn識別的更好一些,可惜的是cvte只開源了訓(xùn)練好的模型,即一個(gè)final.mdl和一個(gè)有限狀態(tài)機(jī)即HCLG.fst,它的語音庫和詳細(xì)的配置文件,操作步驟暫時(shí)還不知道,準(zhǔn)備下一步先把在線搭起來吧,然后再嘗試RNN模型,RNN模型kaldi中是有的,把tensorflow的給集成過來了,是用在nnet3基礎(chǔ)上的,但是怎么用我還不清楚,總而言之,不管啥模型,一切以識別效果為主導(dǎo)吧!
這里再貼一些語音雜談中關(guān)于cvte的建議和文件:
語音雜談:本著促進(jìn)語音研究的共同進(jìn)步原則,我們CVTE小組也將相關(guān)文件公布給大家。
采用這些新提供的文件,大家可以做更多的研究:
1)替換掉CVTE提供的語言模型,生成自己的HCLG.FST;
2)利用自己的場景數(shù)據(jù),可在chain model上進(jìn)行finetune;
3)提示:請大家不要整個(gè)文件夾下載,節(jié)約帶寬;若事先有下載HCLG.FST等,可以不用重復(fù)下載這個(gè)文件;
地址:https://drive.cvte.com/p/DU7d7uEQvAIYrUE
此外,后臺需要ppt資料:鏈接:http://pan.baidu.com/s/1gfjBbPL 密碼:2b34。
總之,很感謝kaldi官網(wǎng),kaldi群里的小伙伴,即群主和管理員們的博客,以及語音雜談的公眾號,都是干貨!