今天晚上整理電腦,偶然看到一年前發(fā)給Misa的郵件。作為Echo重度用戶,尤記得那個階段興奮的睡不著覺,各種查閱資料,做用戶調(diào)研,想找到一切證據(jù)來證明語音交互+人工智能就是未來。之后不到半個月就義無反顧的加入了rokid,夢想著做出一個完美的陪伴型智能助手。
現(xiàn)在想想這份夢想和激情,可能也是我為什么在半年不到的時間里組建美國的產(chǎn)品團(tuán)隊,忽悠一堆大牛加入的利器吧。(在硅谷招聘過就知道有多難,最近好多朋友讓我?guī)兔φ腥?。。以后可以轉(zhuǎn)職到獵頭這個高級職業(yè)了)
回頭看當(dāng)時的部分設(shè)想,在現(xiàn)在這個時間點也值得去探討一下,歡迎大家來交流。
幾個核心觀點:
1。 語音因為它一維的特性,很難獨立成為一個像GUI那樣的主流交互界面,但語音+GUI(手機(jī)屏幕,AR/VR)很有可能是中長期未來的主流交互方式。echo show算是amazon在這個方面的一次嘗試。
2。 智能類產(chǎn)品的體驗在近期無法依賴于技術(shù),更多的是在產(chǎn)品功能上限定使用場景,深挖用戶在單一場景內(nèi)的需求,從而使用較小量且高密度的數(shù)據(jù)來訓(xùn)練模型,再結(jié)合規(guī)則和運(yùn)營的方式來提升終端體驗。
3。 用戶profile。通過開機(jī)的用戶引導(dǎo),日常的核心APP使用行為,以及自動的運(yùn)營小問卷,搭建一個豐滿的用戶profile。這樣接下來可以把部分attribute封裝成API給到平臺上開發(fā)者使用,這樣做出更personalized的體驗。
4。 時間+空間+個性化。智能語音助手應(yīng)該知道我在哪兒,現(xiàn)在的時間,以及我的喜好(profile),給我的信息回復(fù)和行動都要依賴于這三個要素。最傻的一個例子:我在客廳問XX,把燈打開。助手應(yīng)該知道要關(guān)客廳燈,而不是臥室燈。 其他例子見下方郵件原文。
5。自動化與語音交互的結(jié)合。語音的消費(fèi)成本很高,而且現(xiàn)在只能實現(xiàn)簡單的命令,那些包含多actions的復(fù)雜語音,根據(jù)現(xiàn)有技術(shù)很難被有效的分拆成subtask并同步執(zhí)行。我堅信在不久的將來,vitual assistant(助手)將足夠了解你,并proactive/自動的完成你即將需要的tasks,語音只是我們?nèi)祟惒欢ㄆ诘闹鲃痈缮嫠淖詣踊M(jìn)程。詳細(xì)例子見郵件的最后一段。
6。(新)智能助手在云端,然而它無處不在的。在你家里的每一個角落:電視,音響,冰箱,洗衣機(jī),臺燈;伴隨你行走在世界的每個角落:手機(jī),耳機(jī),眼鏡;?存在世界每一個不屬于你的角落:商場里,你的朋友家里。。
希望能夠早日做出理想中的智能助手,Rokid美國產(chǎn)品團(tuán)隊持續(xù)招募中
有興趣的同學(xué),請發(fā)郵件至 Reynold.wu@rokid.ai
詳見原郵件@2016(比較casual的郵件,不要糾結(jié)文字/語法):
“
人工智能和語音接口的未來?Echo類產(chǎn)品到底解決了什么問題? 最好的產(chǎn)品形態(tài)是什么樣的?
首先,我認(rèn)為語音接口會成為一部分任務(wù)的入口,然而短期內(nèi)并看不到其成為獨立的主流接口。語音輸入即使在人與人的交互中也僅占到了一小部分(約33%),人們通過眼神,肢體語言,以及文字等傳達(dá)更加豐富的含義。 在人機(jī)語音交互上,人們的整體體驗并不是很好,用戶往往要以機(jī)器為中心的可以調(diào)整自己的語音,語速,位置來提高識別率。即使語音,語義的理解達(dá)到了一個更加突破性的發(fā)展,語音接口本身也僅能通過自然語言發(fā)送簡單的干涉命令,以達(dá)到獲得信息,和處理簡單任務(wù)的效果,用戶在很長一段時間內(nèi)并無法用語音來執(zhí)行很復(fù)雜的命令,尤其是需要投影在現(xiàn)實世界的任務(wù)。未來語音很可能是與圖形界面或VR類界面相結(jié)合成為下一代的人機(jī)交互界面。
再次,通用人工智能離我們還有很長一段距離,然而人工智能在應(yīng)用層面上可以代替人類記憶,并輔助執(zhí)行那些高度依賴于經(jīng)驗/記憶的任務(wù)。按照這樣的思路,我們可以把通用需求切割成很多具體的場景,并按照場景來制定不同維度的任務(wù)。人工智能在學(xué)習(xí)每一個任務(wù)中的歷史數(shù)據(jù)與用戶本身的需求相關(guān)聯(lián)后,提供反饋回到用場景,最終綜合輸出information, or suggested action. 不過現(xiàn)在總體來說人工智能在人機(jī)交互中的體驗并不是很好,比如現(xiàn)在火熱的chatbot,幾乎都是智障級別的。不過Google Allo在人機(jī)交互上做的閉環(huán)conversation嘗試, 有很多值得思考和學(xué)習(xí)的地方。我認(rèn)為從技術(shù)角度來看,短期內(nèi)以純?nèi)斯ぶ悄軄斫鉀Q廣義場景內(nèi)的人機(jī)交互,并不會有很大的體驗提升。
回到產(chǎn)品的角度來看,現(xiàn)在的2C智能硬件產(chǎn)品大都是nice to have,而遠(yuǎn)沒有達(dá)到must的級別,究其原因還是功能和體驗都不達(dá)標(biāo)。Echo作為一個在家居中心/智能助手類的開創(chuàng)性產(chǎn)品,在市場規(guī)模上取得了很大的市規(guī)模,然而也只是停留在want-to-have的階段。
那我們來分析下Echo這款產(chǎn)品:
Echo作為第一代語音智能中心,起到了教育市場和啟迪用戶的作用,不過它還遠(yuǎn)遠(yuǎn)不能解決用戶對不同場景的需求。我認(rèn)為該類產(chǎn)品除了提高語音/語義識別的工程學(xué)問題之外,最重要的是如何更好的利用時間,空間,以及個性化這三個元素。
智能助手需要充分的理解用戶的時間特性,空間特性以及個人信息,在做相關(guān)性后,自動幫助用戶完成大部分工作,然后通過語音接口去干涉現(xiàn)有的和新的任務(wù)流,成為用戶極為依賴的產(chǎn)品。(根據(jù)場景,參考場ifttt里一些最受歡迎的自動化任務(wù),讓智能助手在后臺處理這些任務(wù)。 )
時間的概念:用戶所在地時間;用戶的日程;用戶去下一個appointment所需的時間;用戶起床的時間;用戶睡覺的時間;用戶出門/回家的時間,用戶睡覺的時間等等這些信息都可以通過連接用戶的其他賬戶,和使用習(xí)慣獲得。
空間的概念:用戶/產(chǎn)品所在的地理位置;用戶calendar上每一個會議的地點;用戶查詢的附近XX的地點;產(chǎn)品所在的具體空間(比如客廳還是臥室)等等這些信息都可以通過連接用戶的其他賬戶,和使用習(xí)慣獲得。
個性化:用戶最喜歡的歌曲,電影,書籍,菜式,明星,新聞,提問方式,家庭關(guān)系,以及其他個人信息。
這些信息可以通過產(chǎn)品向?qū)В╥nitialize)與用戶的交流中獲得,用戶往往在第一次使用的時候最有耐心,也更愿意提供自己的信息。獲取用戶個性化信息的方式上,僅僅通過有限的日常語音交互是遠(yuǎn)遠(yuǎn)不夠的,我相信設(shè)計一套結(jié)合心理學(xué)的用戶注冊引導(dǎo)流程是至關(guān)重要的,現(xiàn)在大部分的智能產(chǎn)品都僅僅停留在快速開機(jī)setup的階段,并沒有很好的利用這個機(jī)會來收集用戶的關(guān)鍵背景數(shù)據(jù)。 其他的信息的獲得可以通過學(xué)習(xí)用戶的使用習(xí)慣,以及增加本地的個人信息數(shù)據(jù)庫(這些信息都是我的私人助手或家庭成員應(yīng)該知道的,比如我家庭成員的名字,生日,喜好等等)
舉個例子:
(日程管理)我問:我晚上的dinner party是什么時候?
1。nice-to-have的助手會回答:你在dinner在下午7點在XX。
2。must have的助手會回答:你在7點跟YY在XX有個會,根據(jù)以往的交通,我建議你6點出門,走101high way。之后我可以接著問,YY最近的三條facebook寫了什么。。 rokid會回答我。(這樣我就知道YY最近在關(guān)注什么,會面的時候就可以找些話題。)
(家庭關(guān)系) 我問:我兒子(或者問Ethan) 的生日是哪天?他會回答我5/XX,離現(xiàn)在還有一星期,你記得買禮物哦。
(任務(wù)管理)我問:我晚上10點問,我今天還有什么要做的么?rokid 回答reynold 你今天還有2個todo沒有做,要我?guī)湍阃七t到明天么
(健康)我問:我晚上10點問,我今天身體怎么樣?rokid回答 你今天一共吃了XX卡(myfitnesspal), 做了xx分鐘的運(yùn)動(ihealth or fitbit or similar apps),我覺得你棒極啦。
(娛樂)我問:今晚的westworld出來了么?rokid回答,已經(jīng)播出了,需要我?guī)湍惴懦鰜砻矗縤f yes, 接入hbo,然后投影到電視上。
(社交)我問: 最近我的微博好友上有什么好玩的動態(tài)?
(智能家居)我問:前門的燈等天黑后就自動打開,天亮了就關(guān)掉。 or 不下雨的天就把前院的草坪澆水 or 我離開家就把空調(diào)關(guān)了,我到家前30分鐘把空調(diào)打開(這些現(xiàn)在都很容易用ifttt做到);在自動化已經(jīng)設(shè)置好,而用戶通過語音來干涉的例子:我發(fā)出新的命令:rokid,我今天下午有朋友來,你今天可以把家里的暖氣一直開著。 (結(jié)果是今天的暖氣一直開著,過了今天后,暖氣自動回復(fù)到之前的routine schedule上。)
如何做到有溫度,最懂你的家庭中心/私人助理/陪伴機(jī)器人,我認(rèn)為應(yīng)該選取幾個關(guān)鍵場景;取得該場景內(nèi)的與用戶有關(guān)的所有信息,并深入整合出可執(zhí)行的信息供用戶獲取和操作。另外就是這個助手/家庭成員,應(yīng)該能夠自動的執(zhí)行自己的既定任務(wù),并提供語音接口來與用戶交流。
對于我個人來說,語音助手已經(jīng)是很重要的家庭元素,通過添加更豐富的skill和個性化設(shè)置,產(chǎn)品會產(chǎn)生越來越強(qiáng)的依賴性和樂趣。