技術(shù)世界不會(huì)讓人永遠(yuǎn)躺在功勞簿上。

繁忙之余,感謝愉快的地鐵閱讀時(shí)光,讀了一本科普書《智能語(yǔ)音時(shí)代》。可能由于譯者不是專業(yè)人士的緣故,在翻譯中有一些常識(shí)性錯(cuò)誤,例如出現(xiàn)了“網(wǎng)景公司正在奮力開(kāi)發(fā)IE瀏覽器”之類的,但是瑕不掩瑜,作者還是給出了很多有意思的事實(shí)和觀點(diǎn),例如:
最好的魔術(shù)就是——
能從逝者那里拿回一些東西,
能讓某些東西無(wú)中生有,
能讓無(wú)生命的東西具有靈性。
“不動(dòng)筆墨不讀書”,讀書后的隨筆札記就是下面的這些文字。
語(yǔ)音是什么?
語(yǔ)音,是人類呱呱墜地后最早使用的溝通方式,也是現(xiàn)代人際交流最基本的方式,更是未來(lái)人機(jī)交互最重要的方式。語(yǔ)言把我們連接起來(lái),人們知道如何說(shuō)話,因?yàn)槲覀兘K其一生都在說(shuō)話。
語(yǔ)音對(duì)我們有意義,是因?yàn)槲覀冎浪硎镜膶?duì)象及概念,我們有邏輯和常識(shí),有知識(shí)本體這樣一個(gè)組織體系,通過(guò)語(yǔ)言來(lái)傳播思想。人們把聽(tīng)到的信息和頭腦中已有的信息結(jié)合起來(lái)進(jìn)行理解。
語(yǔ)音這一能力把我們和其他物種區(qū)分開(kāi)來(lái)。語(yǔ)音調(diào)整著我們的關(guān)系,它能塑造思想、表達(dá)感受、溝通需求;能發(fā)起變革、挽救生命,激起愛(ài)恨情仇。
當(dāng)語(yǔ)音遇到人工智能
手機(jī)把云計(jì)算帶個(gè)了每一個(gè)人,只要隨身帶著麥克風(fēng),就在日常生活中真正掌握了人工智能這一工具??茖W(xué)技術(shù)是賦能的核心要素,當(dāng)語(yǔ)音和人工智能結(jié)合的時(shí)候——
語(yǔ)音正在變成影響現(xiàn)實(shí)的通用遙控器,成為幾乎控制任何一種技術(shù)裝置的手段。語(yǔ)音把對(duì)人工智能的控制權(quán)交給了用戶,正在引領(lǐng)著“環(huán)境智能”的實(shí)現(xiàn)。在使用很多應(yīng)用程序的時(shí)候,人們會(huì)拋棄鍵盤和觸摸屏,而選擇更自然、更讓人自在的語(yǔ)音界面。語(yǔ)音技術(shù)創(chuàng)新了與客戶交互的方式,還創(chuàng)新了收集數(shù)據(jù)并以此創(chuàng)造利潤(rùn)的方式。
智能語(yǔ)音改變了隱私、自主權(quán)和關(guān)系。人與人工智能之間的對(duì)話,可能是新文明到來(lái)的征兆。然而,效率的提高代價(jià)是獨(dú)立性的減弱。智能語(yǔ)音模糊了人與機(jī)器的界限,模糊了隱私、自主權(quán)和親密感的界限,還模糊了人際關(guān)系與數(shù)字關(guān)系、現(xiàn)實(shí)與虛擬、甚至可能是生與死的界限。
智能語(yǔ)音中的技術(shù)
涉及智能語(yǔ)音的技術(shù)包括:自動(dòng)語(yǔ)音識(shí)別,自然語(yǔ)言理解,自然語(yǔ)言生成和語(yǔ)音合成。這些技術(shù)往往都把基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)作為一種重要的手段,多層結(jié)構(gòu)、數(shù)字的精細(xì)輸出和加權(quán)調(diào)整賦予了神經(jīng)網(wǎng)絡(luò)更多的功能。
把聲波轉(zhuǎn)換成文字:自動(dòng)語(yǔ)音識(shí)別
語(yǔ)音識(shí)別系統(tǒng)很少能夠處理非常確定的情況,一般在猜測(cè)人們最有可能說(shuō)什么,通過(guò)聲學(xué)模型(聲波分析)和語(yǔ)言模型(相當(dāng)于字典)配對(duì)來(lái)實(shí)現(xiàn)這一點(diǎn)。衡量語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確度的經(jīng)典方法是使用電話總機(jī)通話記錄的數(shù)據(jù)集。
識(shí)別出這些文字表達(dá)什么:自然語(yǔ)言理解
計(jì)算機(jī)是用來(lái)處理數(shù)字而不是文字的,要處理語(yǔ)音就必須先用數(shù)字來(lái)表示語(yǔ)言。使用被稱為向量的有序字符串來(lái)表示文字,這種方法稱為詞嵌入。神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)區(qū)分單詞的屬性,并不需要171000維向量來(lái)表示一種語(yǔ)言,可以在不到1000個(gè)有意義的特征中完成這項(xiàng)工作。不僅單個(gè)單詞能被嵌入,向量也可以粗略地表示短語(yǔ)、句子和整個(gè)文檔。句子的意義是在詞匯的動(dòng)態(tài)流中被發(fā)現(xiàn)的,而這些詞匯同時(shí)又在修飾著其他復(fù)雜的詞匯。深度學(xué)習(xí)能夠幫助計(jì)算機(jī)理解句子的意思。
形成一個(gè)合適的回復(fù):自然語(yǔ)言生成
語(yǔ)言人工智能使用信息檢索比任何其他技術(shù)都多。例如,LSTM能夠準(zhǔn)確定位郵件中那些最有助于預(yù)先構(gòu)思回復(fù)的部分,而不會(huì)被那些不太重要的句子干擾。這或許就是做Google、百度等搜索公司的核心競(jìng)爭(zhēng)力之一吧。
將回復(fù)變成語(yǔ)音答復(fù):語(yǔ)音合成
變幻莫測(cè)的發(fā)音和韻律意味著一個(gè)單詞可以以幾乎無(wú)限多的方式發(fā)音,這使得語(yǔ)音合成變得棘手。基于單元拼接的語(yǔ)言合成集合了真實(shí)人類的語(yǔ)音片段,這種參數(shù)化合成的方法一直是語(yǔ)音行業(yè)的“天鵝絨奶酪”。2017年8月Siri推進(jìn)了新的基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成方法——一個(gè)混合系統(tǒng)將合成的音頻片段和人工生成的音頻片段鏈接起來(lái)。
語(yǔ)音技術(shù)要適應(yīng)人類對(duì)話的復(fù)雜性和多樣性,面對(duì)一個(gè)核心挑戰(zhàn):變異性(下一步對(duì)話的走向)。社交對(duì)話中充滿了事實(shí)、細(xì)節(jié)和俚語(yǔ),包含無(wú)限多的變化,例如話題的突然轉(zhuǎn)移、同語(yǔ)言一樣重要的情感元素等。另外,交談中會(huì)有停頓、矛盾、暗示和笑話。因此,社交對(duì)話是語(yǔ)音技術(shù)的終極挑戰(zhàn)之一。
語(yǔ)音助手產(chǎn)品的人性化
互聯(lián)網(wǎng)上應(yīng)該有人們最好的朋友嗎?
當(dāng)聽(tīng)到有人說(shuō)話時(shí),我們會(huì)自動(dòng)做出判斷和假定,擁有講話的能力實(shí)質(zhì)上就具備了人的特質(zhì)。而語(yǔ)音助手在個(gè)性上應(yīng)該如何友善、如何有同情心、如何有智慧呢?需要設(shè)定它的年齡、性別、種族和社會(huì)背景嗎?自我應(yīng)該是真實(shí)生命專屬的,真實(shí)的人并不完全由他們的職業(yè)來(lái)定義,可以為語(yǔ)音助手打造獨(dú)特的身份。
語(yǔ)音助手必須能夠表達(dá)自己的脆弱,對(duì)事情感到不確定或擔(dān)心,才顯得它更像一個(gè)人。
谷歌發(fā)現(xiàn),擁有最高用戶留存率的語(yǔ)音應(yīng)用是那些擁有強(qiáng)烈角色性的應(yīng)用程序。對(duì)話設(shè)計(jì)的著力點(diǎn)在科學(xué)和藝術(shù)的連接上。平易近人的個(gè)性會(huì)鼓勵(lì)用戶學(xué)習(xí)使用語(yǔ)音助手的技能集。因此,語(yǔ)音助手擁有能夠鼓勵(lì)人們?cè)敢馀c之打交道的個(gè)性是很重要的。
當(dāng)用戶試圖得到一個(gè)問(wèn)題的答案或完成一項(xiàng)任務(wù)時(shí),語(yǔ)音助手的回答必須是嚴(yán)謹(jǐn)客觀的。人類不是純粹尋求信息的生物,他們有情緒,會(huì)焦慮,都是需要應(yīng)對(duì)的。關(guān)系是由感情來(lái)維系的,情商并不局限于感受到對(duì)方的情緒。情感計(jì)算技術(shù)——從面部表情、詞匯選擇和音調(diào)上進(jìn)行情感分析——只能在有限的程度上提高互動(dòng)的質(zhì)量。微軟小娜感覺(jué)就像融合了Google Now 的世俗氣和Siri的迷人魅力。
個(gè)性化產(chǎn)品將推動(dòng)用戶的參與,但構(gòu)建角色是通過(guò)使用基于規(guī)則的人工創(chuàng)作方法進(jìn)行的。也就是說(shuō),賦予語(yǔ)音人工智能個(gè)性是有意義的,但選擇恰當(dāng)?shù)膫€(gè)性是很棘手的事。一個(gè)普遍的事實(shí)是,各個(gè)廠家的語(yǔ)音助手一般都是女性化的,這不是約定俗成,而是有著深層次的含義。
智能語(yǔ)音的應(yīng)用架構(gòu)
不論是亞馬遜、谷歌、微軟,還是國(guó)內(nèi)的百度、阿里和小米,面向語(yǔ)音助手的智能語(yǔ)音應(yīng)用都采取了基于代理(關(guān)于代理,可以參考當(dāng)你問(wèn)代理機(jī)制的時(shí)候?指的是Agent,Proxy,Broker還是Delegate呢?)的架構(gòu),其巧妙之處在于它是模塊化的、可擴(kuò)展的,可以不斷地把新的業(yè)務(wù)系統(tǒng)囊入其中。
例如,Microsoft Bot Framework,開(kāi)發(fā)者可以為任何商家創(chuàng)建一個(gè)自然語(yǔ)言的界面。基于云端的人工智能服務(wù)能夠?qū)Υ颂岣咧С?,以解析語(yǔ)言、組織對(duì)話、甚至還能分析出隱藏在人們語(yǔ)言之后的感情。
開(kāi)發(fā)自然語(yǔ)言的應(yīng)用程序,即使是聚焦在非常具體的領(lǐng)域,可能也會(huì)非常困難。當(dāng)要把很多信息呈現(xiàn)出來(lái)時(shí)(如很多天的天氣預(yù)報(bào)或者可選航班),視覺(jué)呈現(xiàn)會(huì)比語(yǔ)音呈現(xiàn)更有效率。不僅著眼于已存在的智能手機(jī)應(yīng)用程序,而是更多地聚焦于創(chuàng)造一些能讓自然語(yǔ)言交流大顯身手的場(chǎng)景。
對(duì)于數(shù)據(jù)的應(yīng)用而言,結(jié)構(gòu)化數(shù)據(jù)是指以標(biāo)準(zhǔn)化的、計(jì)算機(jī)可讀的方式列出的信息數(shù)據(jù)庫(kù)。知識(shí)圖譜以類似生物學(xué)分類的方法來(lái)標(biāo)柱各種關(guān)系。為了解決知識(shí)圖譜的問(wèn)題,轉(zhuǎn)而運(yùn)用了從非結(jié)構(gòu)化數(shù)據(jù)中尋找答案的系統(tǒng),包括網(wǎng)頁(yè)、掃描文檔和數(shù)字化圖書。智能語(yǔ)音可以越來(lái)越多地充當(dāng)回答問(wèn)題的百科全書。微軟的概念圖譜在規(guī)模和覆蓋范圍上也一直在與谷歌的知識(shí)圖譜進(jìn)行競(jìng)爭(zhēng)。如何將基于知識(shí)型的人工智能與機(jī)器學(xué)習(xí)型的人工智能兩種技術(shù)結(jié)合起來(lái),創(chuàng)造一個(gè)混合性系統(tǒng)呢?
智能語(yǔ)音應(yīng)用中的問(wèn)題
智能語(yǔ)音在實(shí)際的、以目標(biāo)為導(dǎo)向的應(yīng)用中已經(jīng)做的十分出色了。Siri對(duì)話調(diào)用的早期6個(gè)應(yīng)用領(lǐng)域是:短信、音頻和視頻通話、付款、拍照、鍛煉、乘車預(yù)定。在從傳統(tǒng)的搜索引擎到人工智能服務(wù)的轉(zhuǎn)變中,亞馬遜獲利最多,微軟贏得美名,谷歌損失最多,但仍令人敬畏。
智能語(yǔ)音正在被嘗試廣泛地應(yīng)用,例如,認(rèn)知系統(tǒng)會(huì)分析我們用語(yǔ)音和文字進(jìn)行交流時(shí)候的表現(xiàn),這些分析結(jié)果有助于發(fā)現(xiàn)精神性疾病各階段的跡象。然而,語(yǔ)音助手會(huì)對(duì)他們掌握的知識(shí)負(fù)責(zé)么?某一功能在未來(lái)的某個(gè)時(shí)候可能意味著一種責(zé)任。
凡事都有兩面性,智能語(yǔ)音應(yīng)用可能會(huì)存在哪些負(fù)面影響呢?人們有權(quán)感知真實(shí)的世界。盡管老人和兒童都傾向于將語(yǔ)音助手?jǐn)M人化,那么與擬人化產(chǎn)品互動(dòng)會(huì)如何影響人們隨后的社交欲望呢?用戶提出要求并獲得滿足,且無(wú)須任何付出,這可能不利于道德和情感的發(fā)展,尤其是對(duì)兒童而言,實(shí)際上,關(guān)于孩子們?nèi)绾慰创?dāng)今的聊天機(jī)器人的研究還很少。
從商業(yè)上看,用戶愿意為什么樣的交談付費(fèi)呢?為成為被選中的語(yǔ)音搜索結(jié)果而付費(fèi),只是一個(gè)時(shí)間問(wèn)題,這種廣告可能更費(fèi)錢。正如一場(chǎng)貨架空間爭(zhēng)奪戰(zhàn)即將出現(xiàn),從理論上講,每個(gè)位置的價(jià)格都將更高,因?yàn)橥瑯佣嗟男枨蟊粩D壓到了更小的空間里。當(dāng)眾多競(jìng)爭(zhēng)者都在努力讓客戶聽(tīng)到自己的聲音時(shí),要占據(jù)市場(chǎng)的主導(dǎo)地位就變得更加困難。但目前的情況是,語(yǔ)音廣告似乎不太可能產(chǎn)生與在線廣告和移動(dòng)廣告相當(dāng)?shù)氖杖耄驗(yàn)檫m合播放語(yǔ)音廣告的平臺(tái)比較少。需要注意的是,一項(xiàng)市場(chǎng)研究預(yù)測(cè),到2022年語(yǔ)音購(gòu)物的規(guī)模將從目前的每年20億美元增加到每年400億美元,可惜書中并沒(méi)有給出應(yīng)用的出處,所以無(wú)從考證。
智能語(yǔ)音是一場(chǎng)為用戶設(shè)計(jì)單一界面的競(jìng)賽。提供唯一權(quán)威答案的戰(zhàn)略意味著我們生活在一個(gè)簡(jiǎn)單和絕對(duì)的世界里。對(duì)知識(shí)的控制是一種強(qiáng)大的力量,它正在被集中到少數(shù)精英團(tuán)隊(duì)的手中,控制權(quán)決定了語(yǔ)音流量的去向,這可能是潛在的另一個(gè)問(wèn)題。
最后,你希望擁有自己記憶的語(yǔ)音助手嗎?