91 啊啊啊快,久久精品国产aV香蕉

姓名：張璐

學(xué)號(hào)：19021210845

轉(zhuǎn)載自：https://www.toutiao.com/a6644766450860950024/

【嵌牛導(dǎo)讀】?不少同學(xué)家里都有AI智能音箱產(chǎn)品，例如天貓精靈、小愛同學(xué)、小度等等。這些智能音箱不僅便捷了我們的日常生活，也因?yàn)樗麄兓驒C(jī)智或逗比的回答，給用戶帶來了不少歡樂。

【嵌牛鼻子】AI智能音箱、語音喚醒

【嵌牛提問】語音喚醒技術(shù)的原理是什么？

【嵌牛正文】

“天貓精靈?！薄鞍?，在的，你說”

“小愛同學(xué)，定明天早上8點(diǎn)的鬧鐘?！薄昂玫模呀?jīng)幫你定好明天早上8點(diǎn)的鬧鐘”

不少同學(xué)家里都有AI智能音箱產(chǎn)品，例如天貓精靈、小愛同學(xué)、小度等等。這些智能音箱不僅便捷了我們的日常生活，也因?yàn)樗麄兓驒C(jī)智或逗比的回答，給用戶帶來了不少歡樂。

這些智能產(chǎn)品中的一項(xiàng)重要的AI能力，就叫做語音喚醒。

首先，設(shè)備開啟并自動(dòng)加載好資源，這時(shí)它處于休眠狀態(tài)。然后，當(dāng)用戶說出特定的喚醒詞時(shí)，設(shè)備就會(huì)被喚醒，切換到工作狀態(tài)等待用戶接下來的指令。

這一過程中用戶不需要用手接觸，直接可以用語音進(jìn)行操作，同時(shí)利用語音喚醒的機(jī)制，設(shè)備不用實(shí)時(shí)地處于工作的狀態(tài)，從而節(jié)省能耗。

語音喚醒的應(yīng)用領(lǐng)域比較廣泛，例如機(jī)器人、手機(jī)、可穿戴設(shè)備、智能家居、車載等。幾乎很多帶有語音功能的設(shè)備，都會(huì)需要語音喚醒技術(shù)作為人和機(jī)器互動(dòng)的一個(gè)開始或入口。不同的產(chǎn)品會(huì)有不同的喚醒詞，當(dāng)用戶需要喚醒設(shè)備時(shí)需要說出特定的喚醒詞。

定義

語音喚醒在學(xué)術(shù)上被稱為keyword spotting(簡稱KWS)，吳老師給它做了一個(gè)定義：在連續(xù)語流中實(shí)時(shí)檢測(cè)出說話人特定片段。

這里要注意，檢測(cè)的“實(shí)時(shí)性”是一個(gè)關(guān)鍵點(diǎn)，語音喚醒的目的就是將設(shè)備從休眠狀態(tài)激活至運(yùn)行狀態(tài)，所以喚醒詞說出之后，能立刻被檢測(cè)出來，用戶的體驗(yàn)才會(huì)更好。

那么，該怎樣評(píng)價(jià)語音喚醒的效果呢？通行的指標(biāo)有四個(gè)方面，即喚醒率、誤喚醒、響應(yīng)時(shí)間和功耗水平：

?喚醒率，指用戶交互的成功率，專業(yè)術(shù)語為召回率，即recall。

?誤喚醒，用戶未進(jìn)行交互而設(shè)備被喚醒的概率，一般按天計(jì)算，如最多一天一次。

?響應(yīng)時(shí)間，指從用戶說完喚醒詞后，到設(shè)備給出反饋的時(shí)間差。

?功耗水平，即喚醒系統(tǒng)的耗電情況。很多智能設(shè)備是通過電池供電，需要滿足長時(shí)續(xù)航，對(duì)功耗水平就比較在意。

語音喚醒的技術(shù)路線

經(jīng)過長時(shí)間的發(fā)展，語音喚醒的技術(shù)路線大致可歸納為三代，特點(diǎn)如下：

第一代：基于模板匹配的KWS

訓(xùn)練和測(cè)試的步驟比較簡單，訓(xùn)練就是依據(jù)注冊(cè)語音或者說模板語音進(jìn)行特征提取，構(gòu)建模板。測(cè)試時(shí)，通過特征提取生成特征序列，計(jì)算測(cè)試的特征序列和模板序列的距離，基于此判斷是否喚醒。

第二代：基于HMM-GMM的KWS

將喚醒任務(wù)轉(zhuǎn)換為兩類的識(shí)別任務(wù)，識(shí)別結(jié)果為keyword和non-keyword。

第三代：基于神經(jīng)網(wǎng)絡(luò)的方案

神經(jīng)網(wǎng)絡(luò)方案又可細(xì)分為幾類，第一類是基于HMM的KWS，同第二代喚醒方案不同之處在于，聲學(xué)模型建模從GMM轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)模型。第二類融入神經(jīng)網(wǎng)絡(luò)的模板匹配，采用神經(jīng)網(wǎng)絡(luò)作為特征提取器。第三類是基于端到端的方案，輸入語音，輸出為各喚醒的概率，一個(gè)模型解決。

語音喚醒的難點(diǎn)

語音喚醒的難點(diǎn)，主要是低功耗要求和高效果需求之間的矛盾。

一方面，目前很多智能設(shè)備采用的都是低端芯片，同時(shí)采用電池供電，這就要求喚醒所消耗的能源要盡可能的少。

另一方面，用戶對(duì)體驗(yàn)效果的追求越來越高。目前語音喚醒主要應(yīng)用于C端，用戶群體廣泛，且要進(jìn)行大量遠(yuǎn)場交互，對(duì)喚醒能力提出了很高要求。

要解決兩者之間的矛盾，對(duì)于低功耗需求，我們采用模型深度壓縮策略，減少模型大小并保證效果下降幅度可控；而對(duì)于高效果需求，一般是通過模型閉環(huán)優(yōu)化來實(shí)現(xiàn)。先提供一個(gè)效果可用的啟動(dòng)模型，隨著用戶的使用，進(jìn)行閉環(huán)迭代更新，整個(gè)過程完成自動(dòng)化，無需人工參與。

語音喚醒的典型應(yīng)用

語音喚醒的應(yīng)用領(lǐng)域十分廣泛，主要是C端產(chǎn)品，比如機(jī)器人、音箱、汽車等。比較有代表性的應(yīng)用模式有如下幾種：

?傳統(tǒng)語音交互：先喚醒設(shè)備，等設(shè)備反饋后（提示音或亮燈），用戶認(rèn)為設(shè)備被喚醒了，再發(fā)出語音控制命令，缺點(diǎn)在于交互時(shí)間長。

?One-shot：直接將喚醒詞和工作命令一同說出，如“叮咚叮咚，我想聽周杰倫的歌”，客戶端會(huì)在喚醒后直接啟動(dòng)識(shí)別以及語義理解等服務(wù)，縮短交互時(shí)間。

?Zero-shot：將常用用戶指定設(shè)置為喚醒詞，達(dá)到用戶無感知喚醒，例如直接對(duì)車機(jī)說“導(dǎo)航到科大訊飛”，這里將一些高頻前綴的說法設(shè)置成喚醒詞。

?多喚醒：主要滿足用戶個(gè)性化的需求，給設(shè)備起多個(gè)名字。

?所見即所說：新型的AIUI交互方式，例如用戶對(duì)車機(jī)發(fā)出“導(dǎo)航到海底撈”指令后，車機(jī)上會(huì)顯示“之心城海底撈”“銀泰城海底撈”等選項(xiàng)，用戶只需說“之心城”或“銀泰城”即可發(fā)出指令。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

人工智能科普｜語音喚醒技術(shù)的原理是什么？

人工智能科普｜語音喚醒技術(shù)的原理是什么？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

人工智能科普｜語音喚醒技術(shù)的原理是什么？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

人工智能科普｜語音喚醒技術(shù)的原理是什么？