姓名:張璐
學(xué)號(hào):19021210845
轉(zhuǎn)載自:https://www.toutiao.com/a6644766450860950024/
【嵌牛導(dǎo)讀】?不少同學(xué)家里都有AI智能音箱產(chǎn)品,例如天貓精靈、小愛同學(xué)、小度等等。這些智能音箱不僅便捷了我們的日常生活,也因?yàn)樗麄兓驒C(jī)智或逗比的回答,給用戶帶來了不少歡樂。
【嵌牛鼻子】AI智能音箱、語音喚醒
【嵌牛提問】語音喚醒技術(shù)的原理是什么?
【嵌牛正文】
“天貓精靈?!薄鞍?,在的,你說”
“小愛同學(xué),定明天早上8點(diǎn)的鬧鐘?!薄昂玫模呀?jīng)幫你定好明天早上8點(diǎn)的鬧鐘”
不少同學(xué)家里都有AI智能音箱產(chǎn)品,例如天貓精靈、小愛同學(xué)、小度等等。這些智能音箱不僅便捷了我們的日常生活,也因?yàn)樗麄兓驒C(jī)智或逗比的回答,給用戶帶來了不少歡樂。
這些智能產(chǎn)品中的一項(xiàng)重要的AI能力,就叫做語音喚醒。
首先,設(shè)備開啟并自動(dòng)加載好資源,這時(shí)它處于休眠狀態(tài)。然后,當(dāng)用戶說出特定的喚醒詞時(shí),設(shè)備就會(huì)被喚醒,切換到工作狀態(tài)等待用戶接下來的指令。
這一過程中用戶不需要用手接觸,直接可以用語音進(jìn)行操作,同時(shí)利用語音喚醒的機(jī)制,設(shè)備不用實(shí)時(shí)地處于工作的狀態(tài),從而節(jié)省能耗。
語音喚醒的應(yīng)用領(lǐng)域比較廣泛,例如機(jī)器人、手機(jī)、可穿戴設(shè)備、智能家居、車載等。幾乎很多帶有語音功能的設(shè)備,都會(huì)需要語音喚醒技術(shù)作為人和機(jī)器互動(dòng)的一個(gè)開始或入口。不同的產(chǎn)品會(huì)有不同的喚醒詞,當(dāng)用戶需要喚醒設(shè)備時(shí)需要說出特定的喚醒詞。
定義
語音喚醒在學(xué)術(shù)上被稱為keyword spotting(簡稱KWS),吳老師給它做了一個(gè)定義:在連續(xù)語流中實(shí)時(shí)檢測(cè)出說話人特定片段。
這里要注意,檢測(cè)的“實(shí)時(shí)性”是一個(gè)關(guān)鍵點(diǎn),語音喚醒的目的就是將設(shè)備從休眠狀態(tài)激活至運(yùn)行狀態(tài),所以喚醒詞說出之后,能立刻被檢測(cè)出來,用戶的體驗(yàn)才會(huì)更好。
那么,該怎樣評(píng)價(jià)語音喚醒的效果呢?通行的指標(biāo)有四個(gè)方面,即喚醒率、誤喚醒、響應(yīng)時(shí)間和功耗水平:
?喚醒率,指用戶交互的成功率,專業(yè)術(shù)語為召回率,即recall。
?誤喚醒,用戶未進(jìn)行交互而設(shè)備被喚醒的概率,一般按天計(jì)算,如最多一天一次。
?響應(yīng)時(shí)間,指從用戶說完喚醒詞后,到設(shè)備給出反饋的時(shí)間差。
?功耗水平,即喚醒系統(tǒng)的耗電情況。很多智能設(shè)備是通過電池供電,需要滿足長時(shí)續(xù)航,對(duì)功耗水平就比較在意。
語音喚醒的技術(shù)路線
經(jīng)過長時(shí)間的發(fā)展,語音喚醒的技術(shù)路線大致可歸納為三代,特點(diǎn)如下:
第一代:基于模板匹配的KWS
訓(xùn)練和測(cè)試的步驟比較簡單,訓(xùn)練就是依據(jù)注冊(cè)語音或者說模板語音進(jìn)行特征提取,構(gòu)建模板。測(cè)試時(shí),通過特征提取生成特征序列,計(jì)算測(cè)試的特征序列和模板序列的距離,基于此判斷是否喚醒。
第二代:基于HMM-GMM的KWS
將喚醒任務(wù)轉(zhuǎn)換為兩類的識(shí)別任務(wù),識(shí)別結(jié)果為keyword和non-keyword。
第三代:基于神經(jīng)網(wǎng)絡(luò)的方案
神經(jīng)網(wǎng)絡(luò)方案又可細(xì)分為幾類,第一類是基于HMM的KWS,同第二代喚醒方案不同之處在于,聲學(xué)模型建模從GMM轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)模型。 第二類融入神經(jīng)網(wǎng)絡(luò)的模板匹配,采用神經(jīng)網(wǎng)絡(luò)作為特征提取器。第三類是基于端到端的方案,輸入語音,輸出為各喚醒的概率,一個(gè)模型解決。
語音喚醒的難點(diǎn)
語音喚醒的難點(diǎn),主要是低功耗要求和高效果需求之間的矛盾。
一方面,目前很多智能設(shè)備采用的都是低端芯片,同時(shí)采用電池供電,這就要求喚醒所消耗的能源要盡可能的少。
另一方面,用戶對(duì)體驗(yàn)效果的追求越來越高。目前語音喚醒主要應(yīng)用于C端,用戶群體廣泛,且要進(jìn)行大量遠(yuǎn)場交互,對(duì)喚醒能力提出了很高要求。
要解決兩者之間的矛盾,對(duì)于低功耗需求,我們采用模型深度壓縮策略,減少模型大小并保證效果下降幅度可控;而對(duì)于高效果需求,一般是通過模型閉環(huán)優(yōu)化來實(shí)現(xiàn)。先提供一個(gè)效果可用的啟動(dòng)模型,隨著用戶的使用,進(jìn)行閉環(huán)迭代更新,整個(gè)過程完成自動(dòng)化,無需人工參與。
語音喚醒的典型應(yīng)用
語音喚醒的應(yīng)用領(lǐng)域十分廣泛,主要是C端產(chǎn)品,比如機(jī)器人、音箱、汽車等。比較有代表性的應(yīng)用模式有如下幾種:
?傳統(tǒng)語音交互:先喚醒設(shè)備,等設(shè)備反饋后(提示音或亮燈),用戶認(rèn)為設(shè)備被喚醒了,再發(fā)出語音控制命令,缺點(diǎn)在于交互時(shí)間長。
?One-shot:直接將喚醒詞和工作命令一同說出,如“叮咚叮咚,我想聽周杰倫的歌”,客戶端會(huì)在喚醒后直接啟動(dòng)識(shí)別以及語義理解等服務(wù),縮短交互時(shí)間。
?Zero-shot:將常用用戶指定設(shè)置為喚醒詞,達(dá)到用戶無感知喚醒,例如直接對(duì)車機(jī)說“導(dǎo)航到科大訊飛”,這里將一些高頻前綴的說法設(shè)置成喚醒詞。
?多喚醒:主要滿足用戶個(gè)性化的需求,給設(shè)備起多個(gè)名字。
?所見即所說:新型的AIUI交互方式,例如用戶對(duì)車機(jī)發(fā)出“導(dǎo)航到海底撈”指令后,車機(jī)上會(huì)顯示“之心城海底撈”“銀泰城海底撈”等選項(xiàng),用戶只需說“之心城”或“銀泰城”即可發(fā)出指令。