【編譯】VUI(語音用戶交互)設計基礎指南

原文作者:Justin Baker

原文地址:https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1

筆者結合實際工作中的理解,對文章簡要編譯如下,供參考。

【補充國內的語音交互理解、國內百度、阿里、小米等平臺的相關信息,配合自有資料的部分設計)


Xfinity Remote?by?Juan C.?Angustia

“把鬧鐘設置為早上7:15

——“好的,正在呼叫?Selma Martin...”

"不是!把鬧鐘設置為早上7:15.

——“很抱歉。我無法幫助你

sigh(嘆氣),然后手動設置鬧鐘

如果你使用過智能語音產品,應該也會有類似的場景。

我們的聲音是多種多樣的、復雜多變的,語音指令更難以處理 ——真人之間的對話都如此,更何況計算機了。我們的思維方式、文化背景、俚語簡稱和推理形式等等因素,只要有細微差別都會影響到聽著的語意理解。

那么,設計師和工程師要如何應對這一挑戰(zhàn)呢?我們應如何培養(yǎng)用戶與AI之間的信任?這正是VUI的關鍵所在。

VUI是指,使用語音來實現(xiàn)人與設備實現(xiàn)交互的界面(語音可以是唯一的交互方式,也可以是對視覺和觸覺的補充)。VUI可以是任何東西——聽音樂時的氛圍燈光到汽車的娛樂控制中心。VUI完全可以沒有界面,只依靠聽覺、觸覺或運動等方式來實現(xiàn)交互。

VUI是指,使用語音來實現(xiàn)人與設備實現(xiàn)交互的界面(語音可以是唯一的交互方式,也可以是對視覺和觸覺的補充)。

VUI的形式很多、載體豐富,但都具有相同的UX基礎知識。設計師們借助對這些基礎知識的理解,從用戶視角分析日常語音交互的方式,就可以構建更好的語音交互體驗。

Dannniel

語音交互——約束、依賴、用例

當前技術、環(huán)境和社會約束對我們如何與世界相處有極大的影響——它們會影響我們處理信息的速度、將數(shù)據(jù)轉化為行動的準確性、彼此交流信息的方式方法。

在開始語音交互設計之前,我們必須對語音交互的環(huán)境背景有所了解。

確定設備類型

設備類型直接影響語音交互的模式,限制了語音輸入的范圍(深度和廣度)。

語音交互常見設備類型


手機

手機品牌:iPhones、Pixels、Galaxies、華為、小米……

連接方式:蜂窩數(shù)據(jù)網(wǎng)絡、Wi-Fi、藍牙配對……

使用環(huán)境:環(huán)境背景對語音交互的重大影響

用戶習慣:用戶習慣使用語音交互

支持視覺、聽覺和觸覺反饋的多通道互動模式

各個模式中的交互形式相當標準化


穿戴式設備

特定的用例:如手表、健身手環(huán)或智能鞋

連接方式:蜂窩數(shù)據(jù)網(wǎng)絡、Wi-Fi、藍牙配對……

用戶習慣:用戶可能習慣使用語音交互,但這種交互在設備上是非標準的

穿戴式設備支持視覺、聽覺和觸覺方式進行反饋——盡管某些設備是被動式的、可交互性較弱。

用戶的交互和數(shù)據(jù)消費,通常依賴于所連接的設備。


固定式連接設備

設備示例:臺式電腦、帶屏幕的電器、恒溫器、智能家居控制中心、音響系統(tǒng)和電視等等

連接方式:有線網(wǎng)絡、Wi-Fi、藍牙配對……

用戶習慣于在同樣的位置,保持設備設置不變來進行互動

在不同設備之間使用相似的標準化語音交互方式(如臺式計算機與智能家居,如Google Home ;Amazon Alexa與智能恒溫器,其交互方式就沒明顯區(qū)別)


安卓TV的VUI演示

非固定計算設備(除手機外)

設備示例:筆記本電腦、平板電腦、轉發(fā)器,汽車信息娛樂系統(tǒng)

連接方式: 無線網(wǎng)絡,有線網(wǎng)絡(不常見),Wi-Fi,藍牙配對……

主要的輸入方式不是語音

環(huán)境背景對語音交互行有重大影響

不同設備間的交互方式通常是非標準化的


創(chuàng)建用例矩陣

語音交互的主要、次要和第三用例是什么?該設備是否有主要用例(如健身追蹤器)?或者它有多個用例組合(如智能手機)?

創(chuàng)建用例矩陣非常重要,它將幫助你確定用戶與設備發(fā)生交互的原因。他們的主要交互模式是什么?什么是次要的?什么樣的交互模式是好的,什么是必不可少的?

ACME語音交互用例示意

您可以為每種交互模式創(chuàng)建用例矩陣。應用于語音交互時,矩陣將幫助您了解用戶當前使用或想要使用的語音交互方式——包括他們使用語音助手的位置:

語音助手使用場所

對交互模式排序

如果想要使用用戶研究來豐富你對用例的理解(使用情況或原始量子/質量研究),那么借助你的研究來對各語音交互模式進行排序就非常重要了。

如果有人告訴你:“如果我可以和電視對話,并讓它切換頻道,那簡直太酷了!” 那么你真的需要深入挖掘:他們真的會用嗎?他們已經(jīng)知道設備的限制嗎?他們真的了解自己傾向于使用的功能嗎?

作為設計師,你必須比你的用戶更懂他們。

你必須質疑用戶使用特定交互模式的可能性,因為他們有其他的替代方案。

舉個例子,假設我們正在評估用戶是否會使用語音命令與電視進行交互。這種情況下,最安全的假設是用戶有很多選擇——而語音交互只是其中一種。

用戶可以有很多的備選方案:遠程控制、配對的智能手機,游戲控制器或已連接的物聯(lián)網(wǎng)設備。所以說,語音交互未必會是默認的交互方式,而只是眾多方式的一種。

此時我們的問題就變成了:用戶將語音交互作為最主要交互方式的可能性有多大?如果不是主要交互方式,它會是次要方式嗎?抑或者是第三次藥方式?這會讓你的假設得到更深入的驗證。

列舉技術限制

將我們的語言轉化為行動是一項極其困難的技術挑戰(zhàn)。通過無數(shù)的時間、連接和訓練,調整良好的計算引擎模型能夠很好地識別我們地語音并觸發(fā)相應的操作。

不幸的是,我們還無法實現(xiàn)完全無縫的連接、時間也是有限的。我們希望語音交互與傳統(tǒng)視覺或觸覺這樣的替代方案一樣直接——即使語音引擎的處理和預測模型需要更為復雜。

下圖展示了語音識別的流程:

AMI Voice Engine

如圖可見,許多模型都需要不斷訓練才能完成對我們的詞匯、口音、聲調等等要素的識別。

Automatic Speech Recognition

每個語音識別平臺都有其獨特的技術特征和限制。我們在設計語音交互產品時,必須接受這些約束。

主要的約束有以下幾類:

連接級別:設備是否能始終聯(lián)網(wǎng)

加工速度:用戶的語音是否被實時處理?

加工進度:在精準度和速度上,如何平衡才好?

語音模型:我們目前模型訓練得有多好?我們能夠處理整段的長句、還是智能識別簡短的單詞?

后備選擇:如果語音無法識別,有什么后備方案?用戶是否可以使用其他交互方式?

錯誤代價:用戶指令被錯誤處理時會導致不可逆轉的后果嗎?我們的語音識別引擎是否足夠成熟,能夠有效避免嚴重錯誤的發(fā)生?

環(huán)境測試:語音引擎是否在多種不同的環(huán)境中測試過?例如,做汽車信息娛樂系統(tǒng)所處的環(huán)境,就比家里的智能恒溫器有更多的干擾因素。

非線性

我們還應考慮用戶能夠以非線性的方式與設備交互。例如,如果我要在網(wǎng)站上預定機票,就必須遵循網(wǎng)站設定好的預定流程,選擇或者輸入網(wǎng)站要求的信息:選擇目的地、選擇日期、選擇門票數(shù)量、查看選項……

而VUI面臨著更大的挑戰(zhàn)。用戶可以說“我想訂飛往舊金山的商務艙”,然后VUI就必須從用戶的這句話中提取相關信息,以便利用現(xiàn)有的API完成航班預定。整個邏輯的順序是被打亂的,VUI有責任從用戶這里提取到更多的相關信息——方式可能是語音的、視覺的、或者自動獲取設備位置信息、個人賬戶等等。

針對用戶的個性化問題,我們用什么策略獲取預定所需的信息?

語音輸入體驗設計

現(xiàn)在我們已經(jīng)了解了VUI設計所面臨的約束、依賴和用例?,F(xiàn)在讓我們開始深入探討實際的VUI設計吧。

我們首先要探討的是,設備是如何知道,應該在什么時候去傾聽用戶?

下圖展示了語音交互體驗的基本流程:

語音交互的基本流程


在界面上的展現(xiàn)示例如下:

Garvey Smith

觸發(fā)器


The Wirecutter


Google Assistant

有四種語音輸入的觸發(fā)器:

語音觸發(fā)器:?用戶將發(fā)出特定的短語,提示設備開始處理語音(“Ok Google”)

觸覺觸發(fā)器:按下按鈕(物理或數(shù)字)或切換控件(例如麥克風圖標)

動作觸發(fā)器:在傳感器前揮舞手臂等

設備自觸發(fā):通過預先設定的條件(指定時間、地點,任務提醒或其他觸發(fā)條件)來觸發(fā)設備的響應

設計師必須了解,哪些觸發(fā)器與你的用例相關;并對各類觸發(fā)器與你用例的相關性進行排序。

引導線索

通常,在觸發(fā)設備偵聽之時,會有聽覺、視覺或觸覺提示。這些提示應遵循以下可用性原則:

即時反饋:觸發(fā)后,應該盡快呈現(xiàn)引導線索,即使這可能會中斷當前的操作(只要這種中斷不具有破壞性)。

精確簡短:引導提示應該是瞬間完成的,特別是常見的設備。例如,兩個肯定的嗶嗶聲比“OK Justin,需要我給你做什么?”要好。引導提示越長,用戶的話就越可能與設備提示相沖突。這個原則也適用于視覺線索,屏幕應立即轉變?yōu)轳雎牋顟B(tài)。

清晰的開始:用戶應確切地知道他們的聲音是什么時候開始被錄制的。

一致性:引導線索應始終相同。聲音或視覺反饋的不一致,會讓用戶感到困惑。

可識別:引導線索應該與設備正常的聲音和視覺效果有所不同,絕不應該在任何其他環(huán)境中使用或重復出現(xiàn)。

補充提示:如有可能,請利用多種方式來呈現(xiàn)提示(如同時出現(xiàn):兩聲嗶嗶聲,一次燈光閃爍、一次屏幕對話)。

首用提示:對于第一次使用的用戶、或用戶似乎遇到卡住了,你可以提供首用提示/建議來引導對話繼續(xù)下去。

iPhone Siri

反饋體驗

反饋對于成功的VUI至關重要,它讓用戶明確知道自己的話被設備提取和處理,還允許用戶采取糾正措施或繼續(xù)對話。

Samborek
Cortana

以下是提供良好VUI反饋體驗的可用性原則:

實時響應式的視覺反饋:視覺反饋在手機這樣的原生的語音設備最為常見。視覺上都可以實時地改變顏色或模式來傳達出聲音的認知反饋——音高、音色、音強和持續(xù)時間。

聲音反饋:以簡短的音頻播放來給予反饋

實時文本:跟隨用戶的說話,在屏幕上實時顯示出來

輸出文本:用戶說完后呈現(xiàn)文本,供用戶轉換和修改。這可以在執(zhí)行用戶指令之前提供一道糾正機會。

燈光等非屏幕視覺提示:前面提到的響應式視覺效果不僅限于設備屏幕,也可以有LED燈或燈光模式。

結束提示

結束提示告知用戶,設備此時已經(jīng)不再偵聽用戶的聲音了。很多主要提示的原則同樣適用(如即時性、簡短、清晰、一致性和差異性),但依然有一些額外的設計原則:

充足的時間:確保用戶有足夠的時間下達指令

自適應時間?:分配的響應時間要與用例和用戶預期相適應。例如,當用戶被問到“是否式”的問題時,就應在問題最后一個音節(jié)播放后,提供合理的暫停。

合理的暫停:自上次錄音完成之后,經(jīng)過了合理的時間了嗎?這涉及到比較復雜的計算,但也受上下文的用例影響。

會話用戶體驗

像“打開我的鬧鐘”這樣的簡單命令不一定需要冗長的對話,但更復雜的命令卻需要。與傳統(tǒng)的人-人對話不同,人-智能設備之間需要額外的確認、冗余和糾正(嚴格來講,這些在人-人對話中依然存在,只是幾率小、不會有明確的設定)。

更復雜的命令、或多輪對話通常需要多論的語音/選項驗證來確保對話的準確性。當用戶并不確定應該如何發(fā)出指令時,問句會變得更為復雜。解密用戶消息并引導用戶提供更多的上下文信息就成為VUI的重要任務。

肯定性:當AI理解了用戶的語音時,就應該給出肯定性的回復和確認音。例如,人工智能不是說“當然”而是“當然,我會把燈關掉”或“你確定要關燈嗎?”

糾正:當AI無法理解用戶意圖時,就應使用糾正選項來回應——這允許用戶作出選擇或者完全重新開始。

移情:當AI無法滿足用戶請求時,它就應坦誠自己無法滿足用戶、并提供備選項。移情對我們向用戶提供個性化的服務非常重要。

擬人化的用戶體驗

為語音交互賦予擬人化的特征,使我們建立起人-設備的關系。這種擬人化特征可以以燈光、彈跳的球形、抽樣圖案,機器聲音等等。

Olly

擬人化特征是指在非人類實體上模擬出的人類特征、情感或意圖。


Google Assistant

擬人化特征讓用戶和機器之間建立了更緊密的聯(lián)系,也可以在不同平臺的不同智能產品上建立類似的聯(lián)系(如Google Assistant、亞馬遜的Alexa和Apple的Siri)。

個性:為交互帶來額外維度,虛擬個性幫助我們與用戶建立聯(lián)系和移情。有助于減輕語音處理錯誤帶來的負面影響。

積極性:通常使用積極性鼓勵反復互動,使用肯定的語調。

信心和信任:鼓勵額外的互動和復雜的對話,讓用戶有信心獲得積極和更有價值的結果。

跨平臺跨設備的體驗

語音交互應該是流動和動態(tài)的。在我們的真實對話中,通常會伴隨著無數(shù)的面部表情、語氣語調、肢體語言和身體運動。要將真實對話中的這么豐富的信心轉換到數(shù)字世界中,是很大的挑戰(zhàn)。

如果可能,整個語音交互體驗應該感覺像是一種有益的互動。當然,簡短互動(如“關燈”)并不一定需要有完整的關系。然而,任何類型的更復雜的互動(如借助智能助手完成烹飪)卻需要很長時間的對話。

Aurélien Salomon


TinoFan

有效的語音交互體驗將受益于以下原則:

無縫切換:無縫實現(xiàn)不同狀態(tài)之間的轉換。用戶應該感知到他們永遠不許等待,智能助手正在為他工作。

鮮艷:鮮艷的色彩傳達了喜悅和未來主義。它為互動增添了優(yōu)雅的未來主義元素 - 鼓勵反復的互動。

響應:響應用戶輸入和手勢。提示出當前正在處理的指令、允許用戶查看他們的語音/意圖是否被準確地理解。

Natural AI inside AGI automotive dashboard by?Gleb Kuznetsov?

結論和資源

VUI是非常復雜、多維度的,通常是多模態(tài)的交互。事實上它還沒有一個全面的定義。最重要的是,日益數(shù)字化的世界意味著我們將在各類設備上花越來越多的時間、比我們彼此之間的交流要多得多。VUI會是我們與世界互動的主要手段嗎?讓我們拭目以待。


與此同時,您是否想要打算構建世界級的VUI?以下是一些有用的資源:

How to Design Voice User Interfaces?| Interaction Design Foundation

What Is a Voice User Interface (VUI)? An Introduction?| Amazon Developers

Voice Actions?| Google Developers

SiriKit?| Apple Developers

Designing a VUI?by Frederik Goossens

A Guide to Voice User Interfaces?by Fjord

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容