模型下載地址:http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz
解壓放到kaldi-trunk/egs下即可,打開終端,鏈接steps和untils(這里改為自己的路徑):
ln -s ~/kaldi-master/egs/wsj/s5/steps ~/kaldi-master/egs/cvte/s5/steps
ln -s ~/kaldi-master/egs/wsj/s5/utils ~/kaldi-master/egs/cvte/s5/utils
識(shí)別效果如下:

效果還是不錯(cuò)的,而且這10個(gè)測(cè)試的語(yǔ)音文件口音是相當(dāng)?shù)闹匕 ?/p>
為了更直觀的看對(duì)比效果,我把thchs30例子中的10個(gè)句子拿過(guò)來(lái)進(jìn)行識(shí)別,效果如下:

下圖是thchs30的DNN識(shí)別結(jié)果:

源文件:

對(duì)比下來(lái),cvte開源的模型要比thchs30的dnn識(shí)別的更好一些,可惜的是cvte只開源了訓(xùn)練好的模型,即一個(gè)final.mdl和一個(gè)有限狀態(tài)機(jī)即HCLG.fst,它的語(yǔ)音庫(kù)和詳細(xì)的配置文件,操作步驟暫時(shí)還不知道,準(zhǔn)備下一步先把在線搭起來(lái)吧,然后再嘗試RNN模型,RNN模型kaldi中是有的,把tensorflow的給集成過(guò)來(lái)了,是用在nnet3基礎(chǔ)上的,但是怎么用我還不清楚,總而言之,不管啥模型,一切以識(shí)別效果為主導(dǎo)吧!
這里再貼一些語(yǔ)音雜談中關(guān)于cvte的建議和文件:
語(yǔ)音雜談:本著促進(jìn)語(yǔ)音研究的共同進(jìn)步原則,我們CVTE小組也將相關(guān)文件公布給大家。
采用這些新提供的文件,大家可以做更多的研究:
1)替換掉CVTE提供的語(yǔ)言模型,生成自己的HCLG.FST;
2)利用自己的場(chǎng)景數(shù)據(jù),可在chain model上進(jìn)行finetune;
3)提示:請(qǐng)大家不要整個(gè)文件夾下載,節(jié)約帶寬;若事先有下載HCLG.FST等,可以不用重復(fù)下載這個(gè)文件;
地址:https://drive.cvte.com/p/DU7d7uEQvAIYrUE
此外,后臺(tái)需要ppt資料:鏈接:http://pan.baidu.com/s/1gfjBbPL 密碼:2b34。
總之,很感謝kaldi官網(wǎng),kaldi群里的小伙伴,即群主和管理員們的博客,以及語(yǔ)音雜談的公眾號(hào),都是干貨!