智能語(yǔ)音產(chǎn)品要怎么做?

問(wèn):你覺(jué)得智能語(yǔ)音未來(lái)會(huì)對(duì)交互有著怎樣的影響,會(huì)不會(huì)取代 UI 交互嗎?

答:智能語(yǔ)音是未來(lái)的趨勢(shì),我們現(xiàn)在已經(jīng)開(kāi)始使用語(yǔ)音交互。

在一次機(jī)器人交流會(huì)上,我向一位來(lái)自優(yōu)必選的演講人提了上面的問(wèn)題,但我并沒(méi)有得到想要的答案。智能語(yǔ)音的未來(lái)會(huì)是什么樣子,怎么用智能語(yǔ)音做出好的產(chǎn)品呢?我一直在不斷地嘗試各種產(chǎn)品,不斷地思考。

試驗(yàn)

我找到所有涉及智能語(yǔ)音的相關(guān)產(chǎn)品,都挨個(gè)體驗(yàn)了遍。智能手表,智能音箱,智能機(jī)器人。還有手機(jī)上的各種助手,像蘋(píng)果的Siri,Google的 Allo,微軟的 Cortanna,助理來(lái)也。這些產(chǎn)品有硬件的,也有軟件的。終端有 PC,手機(jī),手表。系統(tǒng)平臺(tái)又有 mac,android,iOS等等。

第一次使用上面的產(chǎn)品并不自然。就像第一次使用觸摸屏手機(jī),沒(méi)有鍵盤(pán),很不適應(yīng),特別是打字。缺少按下去的實(shí)體感覺(jué),會(huì)讓人覺(jué)得觸摸是個(gè)很生硬的操作。還好,手機(jī)提供按下震動(dòng)反饋功能。慢慢適用后,不需要震動(dòng)也可以的。而相對(duì)觸摸操作,智能語(yǔ)音是一種更前沿的交互方式。

觸摸操作縮短了按鍵操作交互路徑。在手機(jī)沒(méi)有觸摸功能之前,想要點(diǎn)擊某個(gè)按鍵時(shí),得先把焦點(diǎn)移動(dòng)到目標(biāo)位置。有了觸摸功能,一個(gè)手指頭戳過(guò)去就行了。那智能語(yǔ)音相較于觸摸操作會(huì)不會(huì)也有同樣的意義呢?觸摸操作是基于 UI 的,將屏幕作為載體。智能語(yǔ)音則不需要界面,沒(méi)有邊界。

換句話說(shuō),智能語(yǔ)音突破 UI 交互的層級(jí),直達(dá)目標(biāo)功能。好比說(shuō),以前你去政府機(jī)關(guān)辦個(gè)證件,你得按流程路徑走,先去 A 部門(mén)蓋個(gè)章,再拿這個(gè)章去 B 部門(mén)蓋個(gè)章,等你集完所有章,就可能兌換最后的卡片了。每個(gè)部門(mén)都得跑,跑錯(cuò)了就辦理不下來(lái),不熟悉的人跑下來(lái)暈頭轉(zhuǎn)向的。現(xiàn)在呢,下個(gè) App,按要求上傳幾張電子證件,等個(gè)幾天,證件就辦好了。嗯,還包郵。中間,你不用跑一個(gè)部門(mén),也不需要知道先跑哪個(gè)部門(mén),再跑哪個(gè)部門(mén),一個(gè)操作就搞定了。語(yǔ)音就類似這樣,以前要幾個(gè)界面點(diǎn)擊,現(xiàn)在就是一句話的事兒。

體驗(yàn)

上面是我對(duì)智能語(yǔ)音意義的理解。但目前真正在應(yīng)用階段,并不理想。這里面有諸多原因,我認(rèn)為主要是兩方面的限制:

語(yǔ)音識(shí)別可靠性。16 年 11 月份的時(shí)候,科大訊飛開(kāi)了個(gè)發(fā)布會(huì),宣稱語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到 97%。而同一時(shí)間,百度,搜狗也開(kāi)了發(fā)布會(huì),準(zhǔn)確率也達(dá)到 97%。這個(gè)準(zhǔn)確率對(duì)于商用的意義有多大呢?我做的有個(gè)機(jī)器人的項(xiàng)目,機(jī)器人可以跟用戶聊天對(duì)話。機(jī)器人語(yǔ)音識(shí)別的技術(shù)就是采用科大訊飛的。我們?cè)诠緶y(cè)試的時(shí)候,搞個(gè)簡(jiǎn)單的一問(wèn)一答對(duì)話都沒(méi)問(wèn)題。你問(wèn)機(jī)器人,今天天氣怎么樣?結(jié)果很快就能出來(lái)。當(dāng)我們拿到房地產(chǎn)售樓處,效果不理想,并且跟預(yù)期的差距是沒(méi)有預(yù)料到的。

在公司測(cè)試的時(shí)候,會(huì)有雜音,整理環(huán)境不算安靜,時(shí)而有人說(shuō)話。當(dāng)時(shí),覺(jué)得這種測(cè)試環(huán)境不算理想,雖然偶爾有錯(cuò)誤但也能接受。售樓處環(huán)境不一樣,因?yàn)闋I(yíng)銷(xiāo)需要,一直有電視播放營(yíng)銷(xiāo)視頻。就算沒(méi)有人說(shuō)話時(shí),機(jī)器人也會(huì)識(shí)別這些聲音。這時(shí)候要是有人跟機(jī)器人對(duì)話,機(jī)器人根本無(wú)法準(zhǔn)備識(shí)別說(shuō)話的內(nèi)容。人多的時(shí)候,售樓大廳里時(shí)刻都有人說(shuō)話,一喚醒機(jī)器人,機(jī)器人就在那里嗚哩哇啦了,說(shuō)一些莫名奇妙的話。因?yàn)樗R(shí)別出的內(nèi)容都是亂七八糟的。

當(dāng)然,你也可能說(shuō)這是場(chǎng)景的原因。在家時(shí)或者車(chē)?yán)锞蜎](méi)這么糟糕了,這是應(yīng)用層面的問(wèn)題。如果語(yǔ)音識(shí)別不能在技術(shù)上解決可靠性的根本問(wèn)題,那它的應(yīng)用領(lǐng)域和范圍也大大受限制了。這里面需要解決的問(wèn)題也很多,多個(gè)人同時(shí)跟機(jī)器人說(shuō)話時(shí),要區(qū)分好不同人說(shuō)的話。張三說(shuō)了哪些話,李四說(shuō)了哪些話?如果有背景噪音,甚至是人說(shuō)話的噪音,都要能夠去掉。

語(yǔ)義理解。如果只是單純地解決語(yǔ)音識(shí)別可靠性問(wèn)題,也就是聽(tīng)得清的問(wèn)題,并不能稱得上智能語(yǔ)音,智能語(yǔ)音還要解決聽(tīng)得懂的問(wèn)題。只有聽(tīng)得清,聽(tīng)得懂,才能知道要做什么事情。

你對(duì)機(jī)器說(shuō),我要吃蘋(píng)果。蘋(píng)果是什么,它不知道。所以你得告訴它,讓它學(xué)習(xí),有明白蘋(píng)果的能力。蘋(píng)果可以是一種水果,可以是一部電影,還可以是一個(gè)品牌。那蘋(píng)果到底是什么呢?如果你告訴機(jī)器,只有代表水果的那個(gè)蘋(píng)果才能被吃。那機(jī)器就能準(zhǔn)確理解你說(shuō)話的意思,知道你的意圖了。做到這一點(diǎn),就能讓機(jī)器明白聽(tīng)得懂你說(shuō)話的內(nèi)容。

在語(yǔ)義理解領(lǐng)域,相關(guān)技術(shù)成熟度是遠(yuǎn)不如語(yǔ)音識(shí)別的。要等到語(yǔ)義理解足夠成熟還是需要很長(zhǎng)的時(shí)間。現(xiàn)在有第三方開(kāi)放的自然語(yǔ)言理解接口,像 Google 收購(gòu)的 api.ai、百度的 UNIT。你可以利用它們開(kāi)放的 API 來(lái)讓你的產(chǎn)品有一定的理解能力,改善你產(chǎn)品的交互體驗(yàn)。接入的過(guò)程就像教一個(gè)小朋友不斷地學(xué)習(xí)新的知識(shí),不停地寫(xiě)各種表達(dá)式,喂給機(jī)器,停不下來(lái)。你能積累多大的知識(shí)庫(kù),就看你能寫(xiě)多少。想寫(xiě)得多,那就堆人力唄。有多少人工就有多少智能,所以人工智能。傅盛講做小雅智能音箱時(shí)說(shuō)了,像「上一首」、「再來(lái)一首」的指令泛化都是靠人工的。

業(yè)務(wù)落地

Siri 剛出來(lái)那會(huì),用戶期待很大,媒體說(shuō)這是喬布斯劃的一道光,是未來(lái)的趨勢(shì)。以后想要做什么事情,對(duì)著手機(jī)講一聲就好了。后面很多公司也出了類似的語(yǔ)音產(chǎn)品:出門(mén)問(wèn)問(wèn),蟲(chóng)洞,搜狗語(yǔ)音助手,百度語(yǔ)音助手。 大部分產(chǎn)品做了一兩年后都停了?,F(xiàn)在只剩下大公司在玩了,蘋(píng)果的 Siri, Google 的 Allo,微軟的 Cortana,百度的度秘。

從 2012 年算起,Siri 出來(lái)有 5 年多,身邊沒(méi)見(jiàn)有一個(gè)人用。前幾天,跟一個(gè)做智能語(yǔ)音的朋友交流,他問(wèn)了兩個(gè)問(wèn)題。

你覺(jué)得 Siri 做得怎么樣?怎樣做得更好?

Siri 必須要做得更好,12 年出來(lái)的產(chǎn)品,到現(xiàn)在,并沒(méi)有太大的進(jìn)步。而 Amazon 智能音箱作為后起之秀,卻開(kāi)拓了新的領(lǐng)域。正好有新聞?wù)f,Siri 也要換新掌門(mén)人了,以前一直都是 Eddy Cue 負(fù)責(zé),現(xiàn)在改為 Craig Federighi 負(fù)責(zé)。蘋(píng)果肯定也是想將 Siri 與 iOS 和 macOS 做一步融合,突然對(duì) Siri 也有了很大的期待。

Siri 要想做好,先得從入口著手。蘋(píng)果給了 Siri 快捷入口,但知道的人不多,長(zhǎng)按本身就是一個(gè)較深的操作。知道的人呢,體驗(yàn)兩三次就不用了。與同類產(chǎn)品相比,Siri 在很多方面都需要做改進(jìn)。

適時(shí)的引導(dǎo)。Siri 是新產(chǎn)品,學(xué)習(xí)新的東西就有成本。不像一般類型的產(chǎn)品,有明確的功能,用戶很容易在短時(shí)間內(nèi)建立起產(chǎn)品的認(rèn)知。用戶對(duì) Siri 的理解是,它很厲害,什么都知道。但你稍微問(wèn)一個(gè)偏門(mén)的問(wèn)題,Siri 就傻傻不知道了。要讓用戶理解智能助手干什么,你需要在合適時(shí)間告訴它。

明確的功能界線。Siri 需要給用戶劃出明確的界線,讓用戶知道它可以做什么,哪些事情做得比較好,哪些是不擅長(zhǎng)的。但不要簡(jiǎn)單給出提示:「你可以這樣問(wèn)我:xxxx」。

友好的互動(dòng)。做智能助手,肯定不能一直沉默在后面,不然就淪為工具,只能等到我需要的時(shí)候才想起你。而實(shí)際上,Siri 沒(méi)有一個(gè)聚焦的功能,用戶很少會(huì)想得到如何使用它。像Google Now,Cortana 就比 Siri 好得多,這種互動(dòng)是雙向的。即時(shí)的互動(dòng)提醒,根據(jù)詢問(wèn)內(nèi)容給出多種樣式回復(fù):有圖片,有文字,甚至猜測(cè)你的意向來(lái)給出相關(guān)問(wèn)題。另外還有待處理事務(wù)的卡片式提示。

如果讓你來(lái)做語(yǔ)音,怎樣做好智能這個(gè)點(diǎn)?

智能的本質(zhì)是做好兩件事情:預(yù)測(cè)和建議。

從用戶角度來(lái)講,智能就是我做完第1步,你知道我第2步想做什么。而不是說(shuō)我讓你做1件事情,你就按照命令去做這件事,這叫功能。比如說(shuō),你對(duì) Siri 說(shuō),明天早上 7 點(diǎn)鐘叫我起床。Siri 就幫你定好了鬧鐘,但這沒(méi)有什么智能可言。

就目前技術(shù),我們不可能做得很智能,預(yù)測(cè)某支股票是漲還是跌。在一定范圍內(nèi)是可以做一些事情的,已經(jīng)有些產(chǎn)品做得比較好。你對(duì) Cortana 說(shuō)到沃爾瑪附近的時(shí)候,提醒我買(mǎi)牙膏。Cortana 會(huì)問(wèn)你哪個(gè)沃爾瑪?你說(shuō)哪個(gè)沃爾瑪都可以。等你到沃爾瑪?shù)臅r(shí)候他就會(huì)提醒你買(mǎi)牙膏。Google Now 也是一樣,你到了上班的時(shí)間沒(méi)有走,它會(huì)提醒你不要遲到了。下班時(shí)間到了,它會(huì)告訴交通狀況怎么樣,開(kāi)車(chē)回去需要多長(zhǎng)時(shí)間。這中間我并不需要標(biāo)記上班的地點(diǎn),住的地點(diǎn)。Google 會(huì)收集我的軌跡,然后自動(dòng)標(biāo)記出來(lái)。

上面的的預(yù)測(cè)和建議都是建立在數(shù)據(jù)源基礎(chǔ)之上。通過(guò)收集用戶的行為數(shù)據(jù)來(lái)判斷你的生活習(xí)慣,意圖,情緒等。這些數(shù)據(jù)可以來(lái)自:Email,網(wǎng)頁(yè)瀏覽歷史,日歷,位置,短信,其它第三方的App。但不是所有人都愿意把自己的隱私開(kāi)放出來(lái)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容