從iPhone4S開(kāi)始,語(yǔ)音助手Siri成為了蘋果系列的標(biāo)配,為用戶提供了一種新的人機(jī)交互體驗(yàn),而現(xiàn)如今語(yǔ)音助手已經(jīng)成為了越來(lái)越多手機(jī)以及其他智能電子終端的標(biāo)配功能。
在使用過(guò)程中會(huì)發(fā)現(xiàn),該功能必須聯(lián)網(wǎng)才能使用,之所以這么設(shè)計(jì),是受到手機(jī)端算力不足,存儲(chǔ)空間面對(duì)海量資源有限導(dǎo)致的,簡(jiǎn)單來(lái)說(shuō)就是在保證同等體驗(yàn)的情況下,“臣妾做不到啊”。

為了解釋這個(gè)觀點(diǎn),接下來(lái)按照以下幾個(gè)維度進(jìn)行解釋:
語(yǔ)音助手的基本流程
主要技術(shù)的實(shí)現(xiàn)原理
云端實(shí)現(xiàn)的產(chǎn)品優(yōu)勢(shì)
語(yǔ)音助手的基本流程
要想弄清楚為什么語(yǔ)音助手需要聯(lián)網(wǎng)才能使用,先要明白當(dāng)前語(yǔ)音助手的背后的實(shí)現(xiàn)原理是什么。

如上圖所示,簡(jiǎn)單的繪制了語(yǔ)音助手的基本流程框架,其中ASR,NLP,TTS均為云端服務(wù),這三個(gè)環(huán)節(jié)的主要作用如下:
ASR(Automatic Speech Recognition),即自動(dòng)語(yǔ)音識(shí)別技術(shù),類似于人的耳朵,該環(huán)節(jié)會(huì)將接收到的語(yǔ)音信號(hào),轉(zhuǎn)換為文本信號(hào),這樣才能讓計(jì)算機(jī)做后續(xù)的處理。
NLP(Natural Language Processing),即自然語(yǔ)言處理,類似于人的大腦,該環(huán)節(jié)通過(guò)文本以及上下文邏輯理解客戶的意圖,并提供最佳答案回復(fù)。
TTS(Text To Speech),即從文本到語(yǔ)音,類似于人的嘴巴,該環(huán)節(jié)會(huì)將NLP返回的文本結(jié)果轉(zhuǎn)換為語(yǔ)音信號(hào),并傳遞給播放器播放出來(lái)。

這三個(gè)技術(shù)環(huán)節(jié)構(gòu)建起了整個(gè)語(yǔ)音對(duì)話的核心。
語(yǔ)音對(duì)話技術(shù)為什么不能在手機(jī)或者其他智能硬件端實(shí)現(xiàn),而需要聯(lián)網(wǎng)才能使用,取決于這三個(gè)環(huán)節(jié)目前無(wú)法在保證用戶體驗(yàn)的情況下在手機(jī)端離線實(shí)現(xiàn)。
主要技術(shù)的實(shí)現(xiàn)原理
以目前市面上已經(jīng)商用化的語(yǔ)音對(duì)話實(shí)現(xiàn)技術(shù)來(lái)看,可以將ASR,NLP,TTS的資料簡(jiǎn)單整理如下表所示:

看起來(lái)很懵?那就對(duì)了!
看上去非常簡(jiǎn)單的語(yǔ)音交互,實(shí)際上主要的技術(shù)環(huán)節(jié)就涵蓋了表中的主要環(huán)節(jié)。從常見(jiàn)應(yīng)用技術(shù)中可以看出,里面多個(gè)環(huán)節(jié)均涉及到了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)。同時(shí)對(duì)于音頻的處理中也需要大量的卷積操作。
聽(tīng)不太懂也沒(méi)有關(guān)系,只要知道這個(gè)過(guò)程很難就可以了。手機(jī)端由于體積的考慮,成本的考慮,續(xù)航的考慮,重量的考慮,散熱的考慮等等,比起服務(wù)器而言,尤其是支持GPU進(jìn)行并發(fā)浮點(diǎn)運(yùn)算的服務(wù)器,運(yùn)算資源是非常少的。
為了更形象的說(shuō)明,使用2016年發(fā)布的iPhone 7 Plus與2013年發(fā)布的iMac14,1進(jìn)行一場(chǎng)跑分比賽,具體結(jié)果如下表所示:

可以看出,一個(gè)領(lǐng)先兩年的旗艦手機(jī),也無(wú)法與兩年前的PC機(jī)抗衡,更不用說(shuō)服務(wù)器端了。
因此在手機(jī)上支持上述表中的所有環(huán)節(jié),實(shí)在是巧婦難為無(wú)米之炊。
云端實(shí)現(xiàn)的產(chǎn)品優(yōu)勢(shì)
目前整個(gè)語(yǔ)音對(duì)話因?yàn)榉N種原因,需要在云端進(jìn)行識(shí)別,該解決方案的思路就是用聯(lián)網(wǎng)依賴換產(chǎn)品體驗(yàn),這個(gè)產(chǎn)品體驗(yàn)具體體現(xiàn)在什么地方呢?
在線識(shí)別的ASR,可以提供更加準(zhǔn)確的語(yǔ)音識(shí)別,降低因?yàn)檎Z(yǔ)音識(shí)別造成的答非所問(wèn);
在線處理的NLP,可以提供海量資源,比起手機(jī)端的本地資源,可以視服務(wù)器端的歌曲內(nèi)容資源是無(wú)窮大的;
在線處理的TTS,更加擬人化,讀音準(zhǔn)確,對(duì)于多音字的發(fā)音更加準(zhǔn)確;
在線的資源方便及時(shí)進(jìn)行升級(jí),而不需要手機(jī)端修改任何東西。例如:最近網(wǎng)絡(luò)的熱門網(wǎng)絡(luò)用語(yǔ),愛(ài)豆最新出的歌曲名稱等,產(chǎn)品和程序員均可以在云端進(jìn)行快速升級(jí)優(yōu)化;
云端由于優(yōu)秀的處理能力,及時(shí)計(jì)算上網(wǎng)絡(luò)鏈路的延時(shí),也會(huì)比手機(jī)本地提供的離線語(yǔ)音對(duì)話服務(wù)更加快速。
到目前為止,可以較為清晰的明白這么涉及的原理是什么了。在產(chǎn)品的設(shè)計(jì)過(guò)程中,無(wú)法做到完美,及時(shí)喬布斯一樣的奇才,也在產(chǎn)品設(shè)計(jì)中面臨著各種妥協(xié)。
回味一下

我們?cè)诋a(chǎn)品的設(shè)計(jì)中如果也面臨同樣的問(wèn)題,也會(huì)面臨取舍,那么有兩個(gè)關(guān)鍵因素需要明確:
用戶的核心訴求是什么,為了滿足其核心訴求,用戶可以做妥協(xié)的程度有多少。
類似語(yǔ)音助手,雖然產(chǎn)品設(shè)計(jì)只有在聯(lián)網(wǎng)時(shí)才能使用,給使用場(chǎng)景做了很大的限制,但是比起一個(gè)離線的語(yǔ)音對(duì)話,聯(lián)網(wǎng)的語(yǔ)音對(duì)話更像是和一個(gè)不聾不啞,無(wú)所不知的智者交談。
解決方案的天花板不要限制了產(chǎn)品的想象力
類似語(yǔ)音助手,一個(gè)完全運(yùn)行在本地的產(chǎn)品,處處將會(huì)受到硬件資源的影響而無(wú)法大展宏圖,如果是核心不可取代的產(chǎn)品,否則很容易淪為雞肋。
產(chǎn)品設(shè)計(jì)迎合社會(huì)發(fā)展趨勢(shì)
類似語(yǔ)音助手,隨著5G網(wǎng)路的普及,隨著人機(jī)對(duì)話技術(shù)的發(fā)展,隨著知識(shí)圖譜的逐步完善,“只能聯(lián)網(wǎng)才能使用”也許將不再是問(wèn)題。