
對(duì)話式交互的崛起
計(jì)算機(jī)從簡(jiǎn)單的CLI(Command-line interface,命令行界面)發(fā)展到復(fù)雜的GUI(Graphical User Interface,圖形用戶界面),再發(fā)展到以自然交互為主的NUI(Natural User Interface, 自然用戶界面),期間經(jīng)歷了30多年時(shí)間。CLI時(shí)代計(jì)算機(jī)性能欠缺,用戶與計(jì)算機(jī)的互動(dòng)主要以簡(jiǎn)單連續(xù)的指令為主;到了GUI時(shí)代,計(jì)算機(jī)性能大幅度提升,用戶與計(jì)算機(jī)的互動(dòng)還增加了瀏覽、視頻、語音、游戲等方式;再到NUI時(shí)代,隨著大數(shù)據(jù)和人工智能和其他新型技術(shù)的出現(xiàn),與計(jì)算機(jī)的交互逐漸從鼠標(biāo)鍵盤發(fā)展到觸摸屏、語音交互、與穿戴式設(shè)備的交互、AR(Augmented Reality,增強(qiáng)現(xiàn)實(shí))和VR(Virtual Reality,虛擬現(xiàn)實(shí))的交互。一路下來“界面”這詞逐漸變得模糊甚至未來可能會(huì)消失,那么人與計(jì)算機(jī)的交互脫離界面后以什么樣的形式承載呢?
這個(gè)問題的答案得回歸到計(jì)算機(jī)input(輸入)和output(輸出)的本質(zhì)。input類似于我給計(jì)算機(jī)一個(gè)問題或指令,output類似于計(jì)算機(jī)理解我的問題和指令后給予解答或反饋。本質(zhì)上其實(shí)是人與計(jì)算機(jī)的交流和對(duì)話。也就是說即使脫離了界面,人與計(jì)算機(jī)的交互能以對(duì)話的形式繼續(xù)下去。
談起對(duì)話,人生短暫幾十年,人將大部分時(shí)間和精力都花在學(xué)習(xí)如何與別人溝通。即使這個(gè)人是文盲不懂寫字不懂如何使用計(jì)算機(jī),他也能夠通過說的形式將自己的想法表達(dá)出來與別人溝通,因?yàn)檫@是人的本能。有好多老人之前沒有接觸過計(jì)算機(jī)和手機(jī)不懂如何使用新科技,加上年齡的增長,他們對(duì)這些冷冰冰的科技有著抵觸;但他們?cè)敢鈱W(xué)習(xí)使用微信和遠(yuǎn)在他方的兒女交流,因?yàn)槲⑿庞姓Z音輸入和視頻聊天,即使不懂文字輸入教一下他們也懂得如何語音聊天甚至視頻交流,與兒女見面交流變得如此簡(jiǎn)單。
與朋友親人聊天包括了情感交流,溫馨、喜悅、激動(dòng),這也是為什么老人愿意使用微信語音,因?yàn)樗麄冇X得微信的另一邊是好久沒見的兒女。如果機(jī)器可以是一個(gè)人,也是一個(gè)朋友,我們可以通過文字與語音的形式與機(jī)器對(duì)話交流,無疑學(xué)習(xí)成本是最低的,而且更多人愿意去嘗試。對(duì)話式交互自然而然成為人與計(jì)算機(jī)之間最簡(jiǎn)單最自然的交互方式。
機(jī)器與人對(duì)話難點(diǎn)在于
對(duì)話是人與人之間交換信息的普遍方式。人可以在交流時(shí)通過判別對(duì)方的語氣、眼神和表情判斷對(duì)方表達(dá)的情感,以及根據(jù)自身的語言、文化、經(jīng)驗(yàn)和能力理解對(duì)方所發(fā)出的信息,但對(duì)于只有0(false)和1(true)的計(jì)算機(jī)來講,理解人的對(duì)話是一件非常困難的事情,因?yàn)橛?jì)算機(jī)不具備以上能力。對(duì)話式交互是計(jì)算機(jī)擬人化的關(guān)鍵之一,要實(shí)現(xiàn)擬人化需要解決以下問題:
1.詞語和語法理解
計(jì)算機(jī)通過NLP(Natural Language Processing,自然語言處理)去理解人說的話。但有些語句和詞語可能會(huì)產(chǎn)生歧義,例如:The pen was in the box.(鋼筆在盒子里);然而 The box was in the pen(盒子在鋼筆里)?這句話是不符合常識(shí)的,但pen還有一個(gè)意思是圍欄,“盒子在圍欄里”這句話是符合常識(shí)的。單從一句話計(jì)算機(jī)可能無法準(zhǔn)確理解對(duì)錯(cuò),這需要計(jì)算機(jī)對(duì)上下文和對(duì)現(xiàn)實(shí)環(huán)境有充分的感知才能理解人類所表達(dá)的意思。隨著對(duì)話次數(shù)的增加,上下文變得更復(fù)雜,這對(duì)于計(jì)算機(jī)的性能和理解能力是一個(gè)非常大的挑戰(zhàn)。
2.命令和問題
目前人與計(jì)算機(jī)的對(duì)話大多以簡(jiǎn)單命令和問題為主,如“今天天氣怎樣?”“元旦節(jié)是什么時(shí)候”“最近最便宜的餐館在哪?”“現(xiàn)任美國總統(tǒng)是誰”“順德在哪?”。計(jì)算機(jī)可以通過“天氣,餐館,最近,最便宜”等關(guān)鍵詞明確命令和問題后,在自己數(shù)據(jù)庫和互聯(lián)網(wǎng)上進(jìn)行搜索,梳理答案并排序,將最優(yōu)答案反饋給用戶。
以上問題可以總結(jié)為“是什么(What),什么時(shí)候(When),哪一個(gè)(Which),是誰(Who),什么地點(diǎn)(Where)”,目前計(jì)算機(jī)能簡(jiǎn)單處理以上問題,但“為什么歐美人頭發(fā)是金色的?”“做九大簋的流程是怎樣的”等涉及“為什么(Why)”“過程(How)”,若之前沒有用戶在網(wǎng)上回答過該問題,計(jì)算機(jī)不知道答案是什么,整個(gè)對(duì)話可能被中斷,體驗(yàn)也會(huì)受到折損。
再舉一個(gè)例子,“幫我買一張飛機(jī)票”,人可以從經(jīng)驗(yàn)判斷出這張飛機(jī)票由多個(gè)因素決定:地點(diǎn),時(shí)間,價(jià)格,怎么買。若應(yīng)用之前已錄入了解決辦法,如先了解用戶要飛去哪里,然后自動(dòng)獲取用戶的日程表和未來幾天的機(jī)票價(jià)格,合理給出便宜且滿足用戶時(shí)間的機(jī)票選擇,用戶確認(rèn)機(jī)票信息后應(yīng)用將用戶的身份信息,飛行時(shí)間,目標(biāo)地點(diǎn)反饋給航空公司,預(yù)定好機(jī)票后讓用戶確認(rèn)并付款。若該應(yīng)用的設(shè)計(jì)師沒有錄入解決該問題需要哪些參數(shù)(因素),可能機(jī)器無法對(duì)此命令作出執(zhí)行;整個(gè)對(duì)話也會(huì)被中斷,體驗(yàn)受到折損。
3.數(shù)據(jù)積累
人的成長更多在于學(xué)習(xí)和知識(shí)、經(jīng)驗(yàn)的積累,三者也決定了智商這詞。通常智商高的人不太喜歡和智商低的人討論學(xué)術(shù)或技術(shù)問題,因?yàn)樗偢杏X倆人不在一個(gè)頻道上,溝通起來會(huì)很麻煩。例如Sheldon在和Leonard他們討論學(xué)術(shù)問題幾乎都是輕蔑的語氣,因?yàn)镾heldon覺得Leonard他們無法理解他的思維和想法,無法幫助他解決問題,

所以Sheldon更不喜歡和Penny有學(xué)術(shù)上的交流。

同理,目前機(jī)器的智商只有幾歲大,只能執(zhí)行人類的簡(jiǎn)單指令,但不能幫助人類解決更多思維上有難度如哲學(xué)、學(xué)術(shù)上的問題,所以人與機(jī)器交流起來可能會(huì)很心累而且會(huì)這么想:

Alpha Go能在圍棋領(lǐng)域(對(duì)話)擊敗李世石是通過幾萬臺(tái)服務(wù)器下了幾百萬盤棋經(jīng)驗(yàn)(數(shù)據(jù))的積累,不斷自我迭代提升自己的智商(算法),所以機(jī)器想和人類有正常的對(duì)話交流需要掌握更多的數(shù)據(jù),通過大數(shù)據(jù)和機(jī)器學(xué)習(xí)的形式進(jìn)行自我迭代,把知識(shí)和經(jīng)驗(yàn)沉淀下來,提升自己的智商。
4.語音識(shí)別
以上是基于文字的對(duì)話,屬于對(duì)話的基礎(chǔ)。若要進(jìn)一步發(fā)展則是人通過說話將信息表達(dá)出來而機(jī)器接收語音并轉(zhuǎn)化為文字。語音識(shí)別將是對(duì)話的一個(gè)非常高的門檻。
A.語言
人在聊天時(shí)所表達(dá)的意思主要由詞匯、語調(diào)、語言、語法、口音和語速等決定。機(jī)器要將語音識(shí)別為文字需要解決以上因素,再通過機(jī)器翻翻譯成能理解的文字再執(zhí)行。
B.情感
人在聊天時(shí)往往帶著情感交流,不同的情感語句所表達(dá)的意思也會(huì)截然不同,這會(huì)導(dǎo)致上下文理解產(chǎn)生明顯的差異。舉一個(gè)“臥槽”的例子。

相同一個(gè)詞用不同發(fā)音會(huì)有不同的表達(dá)情感,這對(duì)機(jī)器來講是否能準(zhǔn)確理解人所表達(dá)的意思是一個(gè)非常大的挑戰(zhàn)。
C.機(jī)器如何表達(dá)
機(jī)器需要將信息轉(zhuǎn)換成人類可接受的對(duì)話,難點(diǎn)包括了信息表達(dá)的轉(zhuǎn)換(文章的表達(dá)(類似文言文)與聊天形式(類似白話)的表達(dá)截然不同)、對(duì)話的長度、各國語言、文化、情感化。
技術(shù)限制與解決
說了這么多,其實(shí)想說明未來決定對(duì)話式產(chǎn)品成功的因素不是產(chǎn)品和設(shè)計(jì),而是技術(shù)能否支撐復(fù)雜的對(duì)話流。之前人與計(jì)算機(jī)的交互大多數(shù)是人給簡(jiǎn)單的指令和問題,計(jì)算機(jī)給出反饋和簡(jiǎn)單的選項(xiàng)讓人做決定,所以難度較低。現(xiàn)在是人給出指令和問題后,計(jì)算機(jī)需要分析上下文理解用戶的意思,產(chǎn)生選項(xiàng)后自己解答,最后將最優(yōu)解反饋給人,難度提升了很多。
近年來科學(xué)家通過機(jī)器學(xué)習(xí)和大數(shù)據(jù)的方法,人工智能有了新的突破。Google利用大數(shù)據(jù)來訓(xùn)練自己的翻譯模型,使自己的機(jī)器翻譯水平有了質(zhì)變的飛躍;百度推出的Deep Speech 2(深度語音識(shí)別系統(tǒng))語音識(shí)別準(zhǔn)確率高達(dá)97%,語音輸入比手動(dòng)文字輸入快達(dá)3倍,且失誤更低;百度的新型情感語音合成系統(tǒng)能夠讓機(jī)器擺脫平鋪直敘的發(fā)聲,為用戶帶來更自然、更接近真人朗讀的聽覺體驗(yàn);在20層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,微軟認(rèn)知服務(wù)提供了語音及語言API給開發(fā)者,開發(fā)者可以開發(fā)自己的對(duì)話式應(yīng)用。技術(shù)逐步發(fā)展起來,在不久的將來會(huì)有更多的對(duì)話式產(chǎn)品進(jìn)入市場(chǎng)。

對(duì)話式技術(shù)解決方案:
人工對(duì)話
主要代表為美國創(chuàng)業(yè)公司設(shè)計(jì)的個(gè)人助理應(yīng)用Magic。當(dāng)用戶提出要求如“幫我買一張機(jī)票”時(shí),后臺(tái)通過人工運(yùn)營為用戶提供解決方案,簡(jiǎn)單理解就是有個(gè)貼身客服為你解決問題。該方案的好處是本質(zhì)上是人與人之間的溝通,能避免很多問題;缺點(diǎn)是當(dāng)用戶量漲起來后,后臺(tái)的人工運(yùn)營能否扛住壓力。目前Magic通過一半人工一半機(jī)器回答的形式轉(zhuǎn)型,減少后臺(tái)的壓力。
預(yù)埋對(duì)話
主要代表為蘋果的Siri,Google的Google Now,微軟的Cortana,Amazon的Echo以及百度的度秘。目前大部分對(duì)話式產(chǎn)品都采用該方案,通過識(shí)別語句中的關(guān)鍵詞給出預(yù)埋的解答。這方案的實(shí)現(xiàn)主要通過設(shè)計(jì)師設(shè)計(jì)的決策樹來實(shí)現(xiàn),例如用戶說“開燈”,機(jī)器需要識(shí)別關(guān)鍵詞“開燈”,然后判斷家里是否有燈,幾盞燈?然后問用戶開第幾盞燈?這方案并不智能,只是設(shè)計(jì)師通過自己的經(jīng)驗(yàn)提前把問題和解決流程錄入到機(jī)器中,整個(gè)流程下來其實(shí)就是設(shè)計(jì)師設(shè)計(jì)該機(jī)器怎么做。該方案的好處是降低答案的失誤和減少重復(fù)的工作;壞處是當(dāng)設(shè)計(jì)師沒有意識(shí)到問題的其他最優(yōu)解決辦法或存在的bug,整個(gè)系統(tǒng)可能給不出最佳答案甚至無解;以及整個(gè)對(duì)話下來其實(shí)就是人與機(jī)器的獨(dú)白,沒有任何交流。
高科技的設(shè)計(jì)者常以自己設(shè)計(jì)的系統(tǒng)具有“溝通能力”為榮。可是,進(jìn)一步分析發(fā)現(xiàn),這是“用詞不當(dāng)”:那并不是真正的溝通,即沒有雙向的一問一答的真正對(duì)話。充其量只不過是兩句單向的自言自語。我們對(duì)機(jī)器發(fā)出指令,然后,機(jī)器對(duì)我們回以指令。兩句獨(dú)白并不能構(gòu)成對(duì)話。——唐納德·A·諾曼
人工智能對(duì)話
主要代表還是蘋果的Siri、Google的Google Now、微軟的Cortana、Amazon的Echo以及百度的度秘。該方案主要通過處理大數(shù)據(jù)和機(jī)器學(xué)習(xí)的形式進(jìn)行自我迭代優(yōu)化現(xiàn)有決策樹,實(shí)現(xiàn)更完整的決策樹和產(chǎn)生更多最優(yōu)的解決方案,它能理解更多指令和記錄用戶的習(xí)慣;但如何理解上下文,理解用戶情感仍是最重要的難題。只有把它們解決了,智能對(duì)話才能到達(dá)科幻電影中的鋼鐵俠Tony Stark的JARVIS智能系統(tǒng)的水準(zhǔn)。
我以為使機(jī)器能與人溝通的關(guān)鍵是發(fā)展更好的對(duì)話系統(tǒng)。但我這想法并不對(duì)。成功的對(duì)話需要共通的知識(shí)和經(jīng)驗(yàn)。它需要對(duì)四周環(huán)境、前后脈絡(luò)、導(dǎo)致目前情況的歷史背景以及當(dāng)事人眾多不同的目標(biāo)和動(dòng)機(jī)等都要有所領(lǐng)悟?,F(xiàn)在我認(rèn)為這正是當(dāng)今科技的根本局限,這種局限阻礙了機(jī)器全面、擬人化地與人互動(dòng)。人與人之間要建立共通的了解本來就很難,那我們?nèi)绾渭耐跈C(jī)器建立這種關(guān)系?——唐納德·A·諾曼
提高機(jī)器對(duì)話質(zhì)量
為了解決理解上下文及理解用戶情感的難題,微軟設(shè)計(jì)了小冰聊天機(jī)器人,這是一個(gè)開放式聊天機(jī)器人,可以在各平臺(tái)上如微博,微信公眾號(hào)上使用。通過與用戶的不斷聊天,小冰不斷增加自身語料的訓(xùn)練,整個(gè)對(duì)話體驗(yàn)也會(huì)不斷優(yōu)化。小冰可以初步判斷用戶的情感以及“學(xué)會(huì)”用表情聊天,使平均對(duì)話可以達(dá)到20多次來回,是其他聊天機(jī)器人如度秘的對(duì)話來回5倍以上。后期小冰與小娜做整合,身為個(gè)人助手的小娜可以與用戶有更多的交流,體驗(yàn)上也會(huì)大幅增長。今年Facebook在F8大會(huì)上發(fā)布的聊天機(jī)器人,目的是替企業(yè)解決客服問題,也為用戶提供查閱新聞,訂購東西的服務(wù),也是為后期對(duì)話式產(chǎn)品做準(zhǔn)備。在未來幾年,對(duì)話式服務(wù)的產(chǎn)品可能成為主流產(chǎn)品。
對(duì)話式產(chǎn)品的形態(tài)
增加對(duì)話的形式獲取信息,在一定程度上弱化了以瀏覽為主的信息獲取和操作。對(duì)于很多產(chǎn)品例如新聞資訊、訂票、購物等類型會(huì)發(fā)生界面和流程上質(zhì)的變化。
新聞資訊
用戶可以通過掃讀的形式閱讀新聞文章了解信息,可能需要一兩分鐘就能了解幾百字新聞講的大概內(nèi)容。如果機(jī)器以對(duì)話的形式將新聞幾百字念完那么效率是低下的,更何況文章和對(duì)話有本質(zhì)上的區(qū)別,在語法,情感等表達(dá)方面完全不同,用戶可能沒有耐心把一篇文章聽完。所以文章要以對(duì)話形式承載,摘要、內(nèi)容拆分、白話化和情感化是關(guān)鍵。

訂票
訂票等流程式操作以對(duì)話的形式承載將變得更簡(jiǎn)單,體驗(yàn)可能理解為回歸至客服訂票的時(shí)代,可能已不需要界面來承載訂票流程了。
購物
購物應(yīng)用將以對(duì)話和界面展示物品的形式推薦相關(guān)商品,就像一名貼在你身邊拿著傳單的導(dǎo)購為你出謀劃策買哪件方便點(diǎn)。

分析大數(shù)據(jù)和建設(shè)一套完整的人工智能對(duì)話式系統(tǒng)需要足夠的資源和技術(shù)來支撐,在未來小公司會(huì)更依賴于大公司提供的智能對(duì)話式平臺(tái),以及有更多的場(chǎng)景和服務(wù)例如新聞資訊、訂票、購物以及健康等集成在類似于Siri的智能對(duì)話式平臺(tái)。當(dāng)平臺(tái)集成更多資源后,未來一臺(tái)手機(jī)里多個(gè)應(yīng)用的現(xiàn)象將逐漸消失,對(duì)話式平臺(tái)更像一個(gè)個(gè)人助理和貼身管家。它能幫你管理信息、解決問題、以及連接線上線下甚至連接虛擬世界。手機(jī)將變得不那么重要,當(dāng)Siri移植到一個(gè)可對(duì)話的耳機(jī)或音箱后(如Amazon的Echo),你可以解放在現(xiàn)實(shí)中或虛擬世界的雙手,若能隨時(shí)隨地與個(gè)人助理交流,效率能得到進(jìn)一步提升。
對(duì)話式設(shè)計(jì)與交互
目前對(duì)話式設(shè)計(jì)逐漸發(fā)展起來但仍處于起步階段,界面設(shè)計(jì)從復(fù)雜變回簡(jiǎn)單,復(fù)雜的頁面結(jié)構(gòu)將被簡(jiǎn)單的上下結(jié)構(gòu)的對(duì)話式取代。現(xiàn)狀是為了實(shí)現(xiàn)對(duì)話式而采用對(duì)話式設(shè)計(jì),把文章、音頻、圖片、視頻等內(nèi)容與對(duì)話結(jié)構(gòu)進(jìn)行融合,因?yàn)槠聊缓徒缑孢€是現(xiàn)在主要的載體和展現(xiàn)形式。
設(shè)計(jì)師在進(jìn)行對(duì)話式設(shè)計(jì)時(shí)需要更注重心理學(xué)和情感化設(shè)計(jì),因?yàn)閷?duì)話式設(shè)計(jì)直觀點(diǎn)來說就是設(shè)計(jì)師和用戶在對(duì)話。設(shè)計(jì)師要學(xué)會(huì)提煉信息并口語化,以及將信息與情感結(jié)合。
對(duì)話式交互的信息需要根據(jù)上下文和場(chǎng)景來呈現(xiàn),每一次對(duì)話將決定下一次對(duì)話的內(nèi)容和信息,所以在對(duì)話式設(shè)計(jì)中,產(chǎn)品的信息架構(gòu)逐漸被決策樹取代,這需要設(shè)計(jì)師適應(yīng)從界面流程設(shè)計(jì)逐漸轉(zhuǎn)向策略設(shè)計(jì),建立滿足用戶需求的完整決策樹和尋找最優(yōu)路徑,以及更多地考慮前后信息的展現(xiàn)策略。這對(duì)于設(shè)計(jì)師的水平來說要求變得更高,而且職責(zé)會(huì)變得更廣。
在對(duì)話里,設(shè)計(jì)更偏向策略及內(nèi)容的設(shè)計(jì)(后端),交互更多考慮內(nèi)容如何與用戶互動(dòng)(前端)。
未來的對(duì)話式交互
隨著語音對(duì)話的成熟,更多的操作和內(nèi)容將以語音對(duì)話的形式承載;圖片和視頻等瀏覽內(nèi)容仍需要界面來承載,但不一定依賴屏幕,傳統(tǒng)的屏幕界面概念可能會(huì)逐漸消失,VR和AR界面會(huì)成為更好的載體,語音對(duì)話如何與未來的界面進(jìn)行交互是一個(gè)很好的話題。
在未來幾年里個(gè)人助理可能滲透在不同領(lǐng)域里,由一個(gè)個(gè)人助理如Siri、Cortana控制每一樣電子產(chǎn)品,它名副其實(shí)就是一個(gè)個(gè)人數(shù)據(jù)中心。當(dāng)AR和VR接入該數(shù)據(jù)中心時(shí),個(gè)人助理也應(yīng)該可以對(duì)AR和VR界面進(jìn)行操作。因?yàn)楝F(xiàn)實(shí)是三維的,所以AR和VR界面也會(huì)是三維的,界面的信息可以增加一個(gè)維度展現(xiàn),展現(xiàn)的信息量可以認(rèn)為是一個(gè)爆炸性的增長;用戶對(duì)界面的操作從手指的精細(xì)操作逐漸發(fā)展到身體也可以對(duì)界面進(jìn)行粗略操作,但身體的長期運(yùn)動(dòng)處理信息時(shí)會(huì)導(dǎo)致人類感到疲倦,所以非常有必要有一個(gè)方便的操作方式幫助人類,這就是語音對(duì)話交互。目前三個(gè)系統(tǒng)都在獨(dú)立發(fā)展,但后期對(duì)話式系統(tǒng)與VR,AR系統(tǒng)應(yīng)該屬于同一個(gè)系統(tǒng),就像鋼鐵俠Tony Stark的JARVIS智能系統(tǒng)。

最后想說
對(duì)話式交互將逐漸改變?nèi)祟惖纳詈土?xí)慣,未來的生活是怎樣的正是我們所興奮和期待的:)