MRCP
MRCP:媒體資源控制協(xié)議,是一種計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用層通訊協(xié)議,用于語(yǔ)音服務(wù)器向客戶端提供各種語(yǔ)音服務(wù)(如:語(yǔ)音識(shí)別,語(yǔ)音合成,錄音服務(wù)等)。
MRCP請(qǐng)求方式:類似于HTTP,MRCP使用請(qǐng)求-響應(yīng)模式,響應(yīng)可以是簡(jiǎn)單的確認(rèn)請(qǐng)求,或者回復(fù)關(guān)于處理的信息。例如語(yǔ)音識(shí)別:MRCP客戶端向服務(wù)端請(qǐng)求發(fā)送一些音頻數(shù)據(jù),服務(wù)端可以響應(yīng)識(shí)別結(jié)果。
MRCP并未定義音頻數(shù)據(jù)的傳輸,數(shù)據(jù)傳輸必須依賴其他的協(xié)議,比如RTP、FTP來(lái)進(jìn)行。因此MRCP傳輸可以是流式或者非流式傳輸。
一句話識(shí)別
一句話識(shí)別:實(shí)時(shí)短語(yǔ)音識(shí)別,可用于語(yǔ)音輸入法、智能客服等領(lǐng)域??芍С至魇?和 非流式返回方式。
流式:用戶一邊說(shuō)話,一邊返回識(shí)別結(jié)果
非流式:用戶整句話說(shuō)完后返回識(shí)別結(jié)果
訊飛的語(yǔ)音識(shí)別
訊飛的語(yǔ)音識(shí)別的場(chǎng)景一般分為2種,如下:
- 聽寫:一分鐘以內(nèi),短語(yǔ)音轉(zhuǎn)文字,實(shí)時(shí)返回結(jié)果,對(duì)效率要求高。如:語(yǔ)音對(duì)話,語(yǔ)音輸入法
- 轉(zhuǎn)寫:五小時(shí)以內(nèi),長(zhǎng)語(yǔ)音轉(zhuǎn)文字,可以非實(shí)時(shí),對(duì)效率要求不高,準(zhǔn)確率要求比聽寫高。如:客服對(duì)話錄音轉(zhuǎn)文字
支持格式:
- 聽寫:采樣率為8kHz或16kHz,位長(zhǎng)16bit,單聲道的wav、pcm
- 轉(zhuǎn)寫:?jiǎn)温暤馈⒍嗦暤赖膚av、flac、opus、m4a、mp3
針對(duì)上述兩種場(chǎng)景,背后的識(shí)別引擎的處理算法也有差異,具體分為兩種引起:
- 聽寫:流式引擎——websocket接口,實(shí)時(shí)解碼,來(lái)一部分解碼一部分,一邊接收一邊響應(yīng)
- 轉(zhuǎn)寫:非流式引擎——HTTP接口,接收到整個(gè)音頻再進(jìn)行解碼,最后再響應(yīng)
AI平臺(tái)現(xiàn)有的語(yǔ)音識(shí)別方式
AI平臺(tái)語(yǔ)音識(shí)別引擎現(xiàn)采用訊飛的“轉(zhuǎn)寫”非流式引擎,但是在調(diào)用引擎之前,先把語(yǔ)音文件進(jìn)行切割處理,分成多個(gè)小文件,再將一個(gè)個(gè)的小文件通過(guò)引擎識(shí)別,最后將識(shí)別結(jié)果合并起來(lái),使得看上去類似于流式引擎。