作者Khoi Vinh通過采訪Sayspring的創(chuàng)始人,探討關(guān)于語音界面的話題,語音交互逐漸變成了熱門,在應(yīng)用層上也越來越成熟,Alexa和Google Home成為了最大的競爭者,阿里和sony也都于今年入場,這一塊領(lǐng)域的應(yīng)用層有了很大的想象空間,Khoi從工具創(chuàng)造者的角度出發(fā),分析了語音交互與視覺界面的不同,并列舉了許多例子,來闡述語音交互的場景和局限性。
原文鏈接:Finding a Voice for Design in Voice UIs
原文作者:Khoi Vinh

設(shè)計(jì)師們總是需要為技術(shù)轉(zhuǎn)變做好準(zhǔn)備,語音助手成為了與計(jì)算機(jī)互動(dòng)的新方式,我對這種方式饒有興致,因?yàn)樗杏X是必然趨勢。不論我們是不是很快就能帶上AR眼鏡或者沉浸在VR的虛幻空間中,通過語音與Alexa,Google Assistant或者Siri交流已經(jīng)是實(shí)現(xiàn)了的新體驗(yàn)。然而,即使我們在潮流的開端,在這些平臺(tái)上的創(chuàng)建工具仍然是原始的。
這也是為什么我看到Sayspring之后,就留下了深刻的印象。盡管有很多語音開發(fā)工具,但是Sayspring是第一個(gè),將語音界面作為設(shè)計(jì)問題來對待,這一點(diǎn)我很認(rèn)同。這款app可以讓那些對語音界面和bot沒有經(jīng)驗(yàn)的人,也可以輕松地創(chuàng)建Alexa的原型,幾分鐘內(nèi)在硬件上運(yùn)行Google Assistant。除了出色的技術(shù)能力,快速追蹤的能力也很優(yōu)秀,語音app的體驗(yàn)需要大量的迭代,謹(jǐn)慎的試錯(cuò)—換句話說,設(shè)計(jì)。從語音界面的角度考慮,會(huì)提出很多的問題,如何將技術(shù)演變成能讓用戶產(chǎn)生共鳴的語言。因此,我采訪了Sayspring的創(chuàng)始人Mark?Webster,關(guān)于Sayspring的展望,以及對語言助手的看法。
Khoi?Vinh:是什么讓Sayspring與眾不同,比Amazon和Google提供更好的開發(fā)kit?
Mark?Webster:正如你所提到的,Amazon和Google都專注于發(fā)布代碼模塊和教程,幫助開發(fā)人員快速構(gòu)建簡單的應(yīng)用,比如測試和事件生成器,這很好的讓人能夠踏上這樣一條船,但是它也導(dǎo)致了一些蹩腳的語言應(yīng)用出現(xiàn),雖然平臺(tái)是新的,語音API也是新的,產(chǎn)品團(tuán)隊(duì)沒有太多的經(jīng)驗(yàn)。此時(shí)需要的不是在媒體上的承諾,不是如何去構(gòu)建語音,而是我們在構(gòu)建什么,我們?yōu)槭裁匆獦?gòu)建它,它是為了誰?
回答這些問題,就需要將設(shè)計(jì)作為過程中的一部分,我們需要一套工具來消除語音使用的技術(shù)障礙。這就是Sayspring,我們的協(xié)同設(shè)計(jì)應(yīng)用讓設(shè)計(jì)師,體驗(yàn)師和產(chǎn)品人員制作語音驅(qū)動(dòng)的體驗(yàn),并實(shí)時(shí)的交流,而不需要編碼和部署任何的東西。
我們也相信,偉大的語音體驗(yàn)從專注用戶路徑開始,這就是 Sayspring制作原型和設(shè)計(jì)的過程。你不需要了解復(fù)雜的背后技術(shù),你只需要專注體驗(yàn),添加命令和響應(yīng),然后在任何設(shè)備上與您的項(xiàng)目對話,也可以在開發(fā)之前與其他人共享。
“如果在構(gòu)建產(chǎn)品的初期就用錯(cuò)了方法,之后的事情都是在浪費(fèi)時(shí)間”
優(yōu)秀的公司都明白設(shè)計(jì)在web和mobile中的價(jià)值。Sayspring遷移到了語音當(dāng)真。隨著發(fā)展,我們會(huì)讓每個(gè)人都更容易地使用語音應(yīng)用。當(dāng)時(shí)如果你從一個(gè)錯(cuò)誤的方法出發(fā),之后的一切都是在浪費(fèi)時(shí)間。
這個(gè)原型和設(shè)計(jì)的方法超過了一般人對工具的期望:它們幫助你構(gòu)建完整的產(chǎn)品。
讓我們來看看語音的發(fā)展,在語音應(yīng)用方面,僅Alexa就擁有超過11000個(gè)Alexa skills,產(chǎn)品的完整性也開始豐富,構(gòu)建的過程也會(huì)越來越簡單,但是更多的應(yīng)用會(huì)逐漸被拋棄。
每一款顛覆性的媒介都會(huì)有一個(gè)早期階段,創(chuàng)造者從早期的媒介中獲取信息,然后推移到新的媒介上。第一個(gè)電視節(jié)目是在攝像機(jī)前播放的廣播節(jié)目,第一個(gè)移動(dòng)應(yīng)用只是微小版的網(wǎng)站,需要花費(fèi)一些時(shí)間來理解新媒介的能力和細(xì)微差別,創(chuàng)造出充分發(fā)揮優(yōu)勢的體驗(yàn)。
我們正在嘗試推動(dòng),將Sayspring作為語音設(shè)計(jì)工作中的必要內(nèi)容。
我們能夠發(fā)現(xiàn)這樣的改變,我們與過去不同,語音的互動(dòng)讓我們更接近自然的交流,應(yīng)用必須適應(yīng)現(xiàn)狀的人。沒有鼠標(biāo),鍵盤或屏幕來學(xué)習(xí)使用,我們都會(huì)交流,語音應(yīng)用必須滿足這一點(diǎn),這也是我們與數(shù)字世界溝通的巨大挑戰(zhàn)。
從視覺界面轉(zhuǎn)換到語音界面,能夠繼承的優(yōu)勢就是,它們都是基于文本的,因此設(shè)計(jì)和開發(fā)的劃分會(huì)模糊,這意味著一旦你完成了設(shè)計(jì)工作,會(huì)很簡單地進(jìn)入到開發(fā)和部署工作去,我們的工作是成為一個(gè),團(tuán)隊(duì)可以在多語音平臺(tái)上設(shè)計(jì),構(gòu)建,管理他們的語音應(yīng)用的工具。因此,我們計(jì)劃著端到端的構(gòu)建過程,我們需要集中精力在設(shè)計(jì)值得輸出的體驗(yàn)。
“語音指令,讓互動(dòng)更接近人類的交流方式”
你相信語音界面會(huì)是基于文本的嗎?我最近有關(guān)注Apple的CarPlay,Google Android Auto,還有Amazon最近發(fā)布的Echo Look。這似乎都在表明,語音和屏幕是一個(gè)有效的組合。
我的意思是,語音設(shè)計(jì)過程的輸出、話語、實(shí)體還有語音,最終都是基于文本的,這會(huì)讓設(shè)計(jì)和開發(fā)過程間更流暢。許多語音驅(qū)動(dòng)的體驗(yàn)都會(huì)包括一塊屏幕,但語音僅作為一種傳統(tǒng)的gui輸入方式。我們?yōu)镾ayspring提供了演示支持。Alexa和Google Hom的視覺組件目前僅限于文本和圖像,因此很容易實(shí)現(xiàn)。Sayspring會(huì)結(jié)合photoshop和sketcj,來做好視覺層的處理。
我們對語音和屏幕的多模態(tài)做了很多思考,想象一個(gè)助理在你的后面跟著你的電腦,他們會(huì)完成你要求的任務(wù)。你可以說一段話,讓它去完成,并在一些場景下,將成功展示在電腦屏幕上。
所以你可能會(huì)告訴它你周末想去看一場演出,并說了些你感興趣的節(jié)目,你看過了什么,期待什么。如果你決定買票,他們會(huì)給你提供一個(gè)電影院的座位圖。你會(huì)告訴他們買什么票,如何完成交易。也可以是通過VUI的形式完成。
我想通過這樣的心智模型,來幫助理解語音的用戶體驗(yàn)是什么。
如果讓大多數(shù)人對新的媒介感興趣,是我們的一項(xiàng)目標(biāo)。我們不僅幫助人們學(xué)習(xí)語音設(shè)計(jì)過程,還要告訴他們?nèi)绾卧O(shè)計(jì)體驗(yàn),太多的語音應(yīng)用只是開發(fā)者創(chuàng)建,大多數(shù)的語音產(chǎn)品沒有合適的設(shè)計(jì)過程。我們認(rèn)為自己是語音對話設(shè)計(jì)的倡導(dǎo)者。
幫助設(shè)計(jì)師使用新媒介,也是我們設(shè)計(jì)產(chǎn)品的一項(xiàng)挑戰(zhàn),人格設(shè)計(jì)是語音設(shè)計(jì)中至關(guān)重要的一部分,除了選擇需要使用的單詞外,還可以使用SSML(語音合成標(biāo)記語言)來添加停頓,改變單詞的發(fā)音和聲調(diào)上的變化。
SSML看起來與HTML,我們正在考慮在SSML中添加富文本編輯器。沒有設(shè)計(jì)師反饋需要更好的SSML工具。但是,當(dāng)我們把它推向世界,它是否也能創(chuàng)造更好的語音體驗(yàn)?我們?nèi)绾慰刂普Z音實(shí)踐的過程?做出更有機(jī)的反應(yīng)?對于我們來說,這是一個(gè)很難回答的問題。
考慮一些事情會(huì)發(fā)現(xiàn)這是不一樣的體驗(yàn)。你對一個(gè)好的語音設(shè)計(jì)師有什么樣的概念?對一個(gè)好的視覺設(shè)計(jì)師呢?兩者有什么重疊呢?
雖然它可能成為下一個(gè)新的設(shè)計(jì)方向,但仍應(yīng)該遵循我們熟悉的設(shè)計(jì)過程,所有的設(shè)計(jì)工作,包括聲音,都應(yīng)該從定義問題出發(fā),進(jìn)行研究,集思廣益,設(shè)計(jì)解決方案,收集反饋,迭代。好的語音設(shè)計(jì)師也會(huì)是在工作中思考驅(qū)動(dòng)的人。
Sayspring想要成為畫布,設(shè)計(jì)師通過它來面向新的媒介工作,從他們熟悉的過程,通過工具獲得啟發(fā)。這種新形式的設(shè)計(jì)是一些學(xué)科的交叉,它們有很長的歷史可以借鑒。基于手機(jī)的交互語音響應(yīng)(IVR)系統(tǒng)的設(shè)計(jì)就是語音驅(qū)動(dòng)的。文案與劇本的寫作,專注于詞語的選擇,信息傳遞,敘事和個(gè)性的傳遞。聲音設(shè)計(jì)和畫外音對節(jié)奏,音調(diào),聽覺氛圍有很大的影響。
我們也會(huì)有多名設(shè)計(jì)師,在一個(gè)語音平臺(tái)上共同工作。大多數(shù)的Alexa skill和Google Assistant都沒有將非口語音頻作為體驗(yàn)的一部分。例如“earcons”是一個(gè)簡短的,獨(dú)特的聲音,用來標(biāo)記用戶在程序中的位置,就像使用不同餓顏色來識(shí)別網(wǎng)站的部分,沒有人使用這種方法。幾乎所有的skill都讓你知道你打開了它,通過說“歡迎使用+技能名”,而不是播放一個(gè)簡短熟悉的音頻剪輯,這會(huì)隨著時(shí)間而改變。
我們很快就會(huì)看到語音應(yīng)用的設(shè)計(jì)團(tuán)隊(duì),會(huì)包括交互設(shè)計(jì)師,具體語音劇本文案的策劃,聲音設(shè)計(jì)師添加增強(qiáng),提示,氛圍音效。我們希望Sayspring能做到。
你認(rèn)為有更豐富的技能和場景化的工作流程能干幫助Alexa skill和Google Assistant發(fā)展到下一個(gè)階段嗎?絕大多數(shù)的應(yīng)用都很難找到新的用戶,即使用戶安裝了,也很少會(huì)繼續(xù)使用,除了Spotify,我不知道還有哪款應(yīng)用可以這樣做。
我認(rèn)為聰明的團(tuán)隊(duì)?wèi)?yīng)該能夠更深入的了解如何使用新的媒介,以及在現(xiàn)有平臺(tái)上的改變,都會(huì)推動(dòng)語音的變化。
Alexa了解你的越多,能夠修復(fù)的問題也越多,音樂是語音界面的理想應(yīng)用,但連接到Spotify之后,就再也不用尋求Spotify了。我們看到越來越多這樣的情況。Alexa剛剛發(fā)布了一個(gè)新的視頻API來鏈接機(jī)頂盒和流媒體服務(wù),不需要特定的技能和程序調(diào)用。Alexa啟動(dòng)了這類技能,現(xiàn)在說“Alexa,切換到ESPN?!本湍荞R上改變電視頻道。
許多早期技能都是起點(diǎn),達(dá)美樂披薩推出了一項(xiàng)Alexa skill,科研讓你重新訂購之前的披薩。達(dá)美樂的CEO Patrick?Doyle說,越來越多的人使用這種技能,已經(jīng)讓公司投入更多的資源來優(yōu)化訂購體驗(yàn)了。他們正努力重新構(gòu)建訂單。不同的尺寸,品類,交易額,反饋,都是困難的設(shè)計(jì),需要更深思熟慮的設(shè)計(jì)。
但同時(shí),轉(zhuǎn)換到語音比單純的skill和action更重要。Google Analytics宣布支持了語音,在移動(dòng)端和桌面,你可以問“我們上周有多少訪客”,而不是一個(gè)單純的界面。win10種25%的cortana請求都是通過語音完成的,每月有一億的cortana活躍用戶,人們已經(jīng)習(xí)慣在電腦前與它交談,設(shè)計(jì)語音界面很快會(huì)成為一個(gè)團(tuán)隊(duì)的新任務(wù)。
我認(rèn)為披薩預(yù)定是一個(gè)不錯(cuò)的前奏,但我想知道語音界面在實(shí)際應(yīng)用上,在復(fù)雜任務(wù)的局限性。在我個(gè)人的經(jīng)驗(yàn)中,即使是播放音樂也超過了我的認(rèn)知。除非我有一個(gè)明確的想法,知道我要聽什么,我必須保留我喜歡的音樂和歌手收藏。而當(dāng)我看到iTunes,就像我看到廚房里各種各樣的東西,我不會(huì)知道站在廚房里去呼喚Alexa或者Google Home。這些語音界面是否有實(shí)際的限制?缺少具像化的視覺界面?
每種媒介都有自己的優(yōu)劣,設(shè)計(jì)師就是要推動(dòng)這種媒介的感知極限,以找到最有價(jià)值的解決方案。很多Alexa處理音樂的時(shí)候會(huì)發(fā)現(xiàn)問題,所以它通過“適合下廚的流行音樂”和“適合睡眠的古典音樂”來解決。我想說的是,問題不是單單添加屏幕就可以解決的。
我不認(rèn)為語音界面有實(shí)際的限制,而是回到它的優(yōu)點(diǎn)和缺點(diǎn),不是所有的事情都適合語音操作。如果瀏覽Pinterest,沒有屏幕是不可能的。想要重新設(shè)計(jì)廚房,然后坐在沙發(fā)上,看著電視屏幕,通過語音操作征求意見,提出建議,瀏覽廚房照片,手持酒杯,這聽起來不錯(cuò)。但可能是因?yàn)橐槐瓙芤獾木疲憧赡苷J(rèn)為語音代表了一種更隨意的方法,我們不應(yīng)該用語音來表達(dá)主要的目的嗎?
它可以是一種全新的響應(yīng)方式,以用戶為中心的設(shè)計(jì),提供了全新的機(jī)會(huì),我走進(jìn)了我的房子,想要打開燈光和音樂,語音是很不錯(cuò)的方法。在會(huì)議前,開車路上我可以更新我的salesforce記錄,而不是到了辦公室再做,語音也是不錯(cuò)的場景。Alexa是一個(gè)不錯(cuò)的起點(diǎn)。
最后一個(gè)問題:你覺得誰會(huì)是最后的贏家,Alexa,Siri,Google Assistant,Cortana,還是別的?
我認(rèn)為不同的企業(yè)會(huì)獲得不同領(lǐng)域的勝出,Alexa會(huì)贏得家庭市場,Cortana會(huì)贏得企業(yè)市場,Google Assistant和Siri會(huì)在車載上取勝,如果你直接與Amazon競爭,可能不太明智。