語(yǔ)音交互流程

一、流程概述

語(yǔ)音交互的完整流程大致為:
喚醒→語(yǔ)音識(shí)別(ASR)→自然語(yǔ)音處理(NLP)→語(yǔ)音合成(TTS)
可以類比為:
打招呼→耳朵→大腦→嘴巴

二、步驟詳解

1、喚醒

(1)定義:將設(shè)備從休眠態(tài)變?yōu)楣ぷ鲬B(tài)
(2)喚醒方式:語(yǔ)音或按鍵。語(yǔ)音可設(shè)置喚醒詞,按鍵一般是長(zhǎng)按電源鍵0.5s。
(3)語(yǔ)音喚醒的工作原理:
a. 基于模板匹配:把喚醒詞轉(zhuǎn)換成特征序列,將錄入的語(yǔ)音和特征序列進(jìn)行匹配,匹配就喚醒,否則仍繼續(xù)休眠
b. 基于隱馬爾可夫模型:將喚醒詞和其他音頻分別建立模型,錄入的語(yǔ)音分別傳入兩個(gè)模型,然后比對(duì)模型得分,根據(jù)得分高低比對(duì)來(lái)決定是否喚醒
c.基于神經(jīng)網(wǎng)絡(luò):取決于是否用到了神經(jīng)網(wǎng)絡(luò)的原理
(4)喚醒詞的設(shè)計(jì)
簡(jiǎn)單來(lái)說(shuō)就是:不短不長(zhǎng),不重不難。解釋一下,喚醒詞應(yīng)該盡量精簡(jiǎn),避免難以記憶,又不能過于短,容易誤喚醒;每個(gè)廠商一般都會(huì)設(shè)計(jì)自己特定的默認(rèn)喚醒詞,其一般會(huì)含有語(yǔ)音助手的名稱,避免和其他廠商重復(fù)。用戶也可以自定義喚醒詞。
(5)喚醒正確率的衡量指標(biāo)
喚醒率、誤喚醒率。
a. 喚醒率常用百分比表示。模擬用戶的使用場(chǎng)景,多人多次測(cè)試,重復(fù)說(shuō)喚醒詞,被成功喚醒的占比就是喚醒率。
b. 誤喚醒率常用24小時(shí)被誤喚醒多少次表示。模擬用戶的使用場(chǎng)景,多人多次測(cè)試,重復(fù)說(shuō)非喚醒詞,被成功喚醒的占比就是誤喚醒率。

2、語(yǔ)音識(shí)別(ASR)

(1)定義:將聲音轉(zhuǎn)化為文字
(2)流程:聲音→數(shù)字向量→文字
http://www.woshipm.com/ai/2620327.html

3、自然語(yǔ)音處理(NLP)

(1)定義:用于將用戶的指令轉(zhuǎn)換為結(jié)構(gòu)化的、機(jī)器可以理解的語(yǔ)言。
(2)處理方式:基于規(guī)則;基于數(shù)據(jù)訓(xùn)練模型
(3)關(guān)鍵詞:技能、意圖、槽位
http://www.woshipm.com/pmd/827437.html

4、語(yǔ)音合成(TTS)

(1)定義:將文本轉(zhuǎn)換成語(yǔ)音
(2)方法:拼接法、參數(shù)法
http://www.woshipm.com/pmd/1381081.html

相關(guān)鏈接:
http://www.woshipm.com/pd/4098761.html
http://www.woshipm.com/ai/2620327.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容