CVTE 開源模型識(shí)別效果

模型下載地址:http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz

解壓放到kaldi-trunk/egs下即可,打開終端,鏈接steps和untils(這里改為自己的路徑):

ln -s ~/kaldi-master/egs/wsj/s5/steps ~/kaldi-master/egs/cvte/s5/steps

ln -s ~/kaldi-master/egs/wsj/s5/utils ~/kaldi-master/egs/cvte/s5/utils

識(shí)別效果如下:

效果還是不錯(cuò)的,而且這10個(gè)測(cè)試的語(yǔ)音文件口音是相當(dāng)?shù)闹匕 ?/p>

為了更直觀的看對(duì)比效果,我把thchs30例子中的10個(gè)句子拿過(guò)來(lái)進(jìn)行識(shí)別,效果如下:

下圖是thchs30的DNN識(shí)別結(jié)果:

源文件:

對(duì)比下來(lái),cvte開源的模型要比thchs30的dnn識(shí)別的更好一些,可惜的是cvte只開源了訓(xùn)練好的模型,即一個(gè)final.mdl和一個(gè)有限狀態(tài)機(jī)即HCLG.fst,它的語(yǔ)音庫(kù)和詳細(xì)的配置文件,操作步驟暫時(shí)還不知道,準(zhǔn)備下一步先把在線搭起來(lái)吧,然后再嘗試RNN模型,RNN模型kaldi中是有的,把tensorflow的給集成過(guò)來(lái)了,是用在nnet3基礎(chǔ)上的,但是怎么用我還不清楚,總而言之,不管啥模型,一切以識(shí)別效果為主導(dǎo)吧!


這里再貼一些語(yǔ)音雜談中關(guān)于cvte的建議和文件:

語(yǔ)音雜談:本著促進(jìn)語(yǔ)音研究的共同進(jìn)步原則,我們CVTE小組也將相關(guān)文件公布給大家。

采用這些新提供的文件,大家可以做更多的研究:

1)替換掉CVTE提供的語(yǔ)言模型,生成自己的HCLG.FST;

2)利用自己的場(chǎng)景數(shù)據(jù),可在chain model上進(jìn)行finetune;

3)提示:請(qǐng)大家不要整個(gè)文件夾下載,節(jié)約帶寬;若事先有下載HCLG.FST等,可以不用重復(fù)下載這個(gè)文件;

地址:https://drive.cvte.com/p/DU7d7uEQvAIYrUE

此外,后臺(tái)需要ppt資料:鏈接:http://pan.baidu.com/s/1gfjBbPL 密碼:2b34。

總之,很感謝kaldi官網(wǎng),kaldi群里的小伙伴,即群主和管理員們的博客,以及語(yǔ)音雜談的公眾號(hào),都是干貨!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容