CVTE 開源模型識別效果

模型下載地址:http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz

解壓放到kaldi-trunk/egs下即可,打開終端,鏈接steps和untils(這里改為自己的路徑):

ln -s ~/kaldi-master/egs/wsj/s5/steps ~/kaldi-master/egs/cvte/s5/steps

ln -s ~/kaldi-master/egs/wsj/s5/utils ~/kaldi-master/egs/cvte/s5/utils

識別效果如下:

效果還是不錯的,而且這10個(gè)測試的語音文件口音是相當(dāng)?shù)闹匕 ?/p>

為了更直觀的看對比效果,我把thchs30例子中的10個(gè)句子拿過來進(jìn)行識別,效果如下:

下圖是thchs30的DNN識別結(jié)果:

源文件:

對比下來,cvte開源的模型要比thchs30的dnn識別的更好一些,可惜的是cvte只開源了訓(xùn)練好的模型,即一個(gè)final.mdl和一個(gè)有限狀態(tài)機(jī)即HCLG.fst,它的語音庫和詳細(xì)的配置文件,操作步驟暫時(shí)還不知道,準(zhǔn)備下一步先把在線搭起來吧,然后再嘗試RNN模型,RNN模型kaldi中是有的,把tensorflow的給集成過來了,是用在nnet3基礎(chǔ)上的,但是怎么用我還不清楚,總而言之,不管啥模型,一切以識別效果為主導(dǎo)吧!


這里再貼一些語音雜談中關(guān)于cvte的建議和文件:

語音雜談:本著促進(jìn)語音研究的共同進(jìn)步原則,我們CVTE小組也將相關(guān)文件公布給大家。

采用這些新提供的文件,大家可以做更多的研究:

1)替換掉CVTE提供的語言模型,生成自己的HCLG.FST;

2)利用自己的場景數(shù)據(jù),可在chain model上進(jìn)行finetune;

3)提示:請大家不要整個(gè)文件夾下載,節(jié)約帶寬;若事先有下載HCLG.FST等,可以不用重復(fù)下載這個(gè)文件;

地址:https://drive.cvte.com/p/DU7d7uEQvAIYrUE

此外,后臺需要ppt資料:鏈接:http://pan.baidu.com/s/1gfjBbPL 密碼:2b34。

總之,很感謝kaldi官網(wǎng),kaldi群里的小伙伴,即群主和管理員們的博客,以及語音雜談的公眾號,都是干貨!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容