mrcp與一句話識(shí)別

MRCP

MRCP:媒體資源控制協(xié)議,是一種計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用層通訊協(xié)議,用于語(yǔ)音服務(wù)器向客戶端提供各種語(yǔ)音服務(wù)(如:語(yǔ)音識(shí)別,語(yǔ)音合成,錄音服務(wù)等)。

MRCP請(qǐng)求方式:類似于HTTP,MRCP使用請(qǐng)求-響應(yīng)模式,響應(yīng)可以是簡(jiǎn)單的確認(rèn)請(qǐng)求,或者回復(fù)關(guān)于處理的信息。例如語(yǔ)音識(shí)別:MRCP客戶端向服務(wù)端請(qǐng)求發(fā)送一些音頻數(shù)據(jù),服務(wù)端可以響應(yīng)識(shí)別結(jié)果。

MRCP并未定義音頻數(shù)據(jù)的傳輸,數(shù)據(jù)傳輸必須依賴其他的協(xié)議,比如RTP、FTP來(lái)進(jìn)行。因此MRCP傳輸可以是流式或者非流式傳輸。

一句話識(shí)別

一句話識(shí)別:實(shí)時(shí)短語(yǔ)音識(shí)別,可用于語(yǔ)音輸入法、智能客服等領(lǐng)域??芍С至魇?和 非流式返回方式。

流式:用戶一邊說(shuō)話,一邊返回識(shí)別結(jié)果
非流式:用戶整句話說(shuō)完后返回識(shí)別結(jié)果

訊飛的語(yǔ)音識(shí)別

訊飛的語(yǔ)音識(shí)別的場(chǎng)景一般分為2種,如下:

  1. 聽寫:一分鐘以內(nèi),短語(yǔ)音轉(zhuǎn)文字,實(shí)時(shí)返回結(jié)果,對(duì)效率要求高。如:語(yǔ)音對(duì)話,語(yǔ)音輸入法
  2. 轉(zhuǎn)寫:五小時(shí)以內(nèi),長(zhǎng)語(yǔ)音轉(zhuǎn)文字,可以非實(shí)時(shí),對(duì)效率要求不高,準(zhǔn)確率要求比聽寫高。如:客服對(duì)話錄音轉(zhuǎn)文字

支持格式:

  1. 聽寫:采樣率為8kHz或16kHz,位長(zhǎng)16bit,單聲道的wav、pcm
  2. 轉(zhuǎn)寫:?jiǎn)温暤馈⒍嗦暤赖膚av、flac、opus、m4a、mp3

針對(duì)上述兩種場(chǎng)景,背后的識(shí)別引擎的處理算法也有差異,具體分為兩種引起:

  1. 聽寫:流式引擎——websocket接口,實(shí)時(shí)解碼,來(lái)一部分解碼一部分,一邊接收一邊響應(yīng)
  2. 轉(zhuǎn)寫:非流式引擎——HTTP接口,接收到整個(gè)音頻再進(jìn)行解碼,最后再響應(yīng)

AI平臺(tái)現(xiàn)有的語(yǔ)音識(shí)別方式

AI平臺(tái)語(yǔ)音識(shí)別引擎現(xiàn)采用訊飛的“轉(zhuǎn)寫”非流式引擎,但是在調(diào)用引擎之前,先把語(yǔ)音文件進(jìn)行切割處理,分成多個(gè)小文件,再將一個(gè)個(gè)的小文件通過(guò)引擎識(shí)別,最后將識(shí)別結(jié)果合并起來(lái),使得看上去類似于流式引擎。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容