2018-05-08

一段聲音的旅程(一)語音產(chǎn)品的五大關(guān)鍵環(huán)節(jié)

作者:秋半仙,哼哼

最近幾年關(guān)于人工智能的討論可謂是甚囂塵上,其中和語音及語義相關(guān)的行業(yè)活動更是尤為突出?,F(xiàn)在很多行業(yè)都在涉足語音交互。半仙我印象比較深刻的是在2012年,大家都還在做手機(jī)語音助手,創(chuàng)業(yè)公司也都過的苦不堪言。之后蘋果發(fā)布的中文siri猶如一夜春風(fēng),刮開了千樹梨花。DNN、語音開放平臺、語音助手等等都在那個時候開始出現(xiàn)。大量的資本也開始躁動,其中百度和搜狗在內(nèi)的資本狠投了一波手機(jī)語音助手。很多做語音的公司也都陸陸續(xù)續(xù)掙得盆滿缽滿,得以在創(chuàng)業(yè)的道路上繼續(xù)苦逼。之后,樂視發(fā)布了超級電視,讓語音一下子成為了智能電視的寵兒。于是大伙兒一看,喲呵!隔壁老賈折騰那智能電視挺像模像樣的哈!那啥,這風(fēng)頭不能讓他一人占了,咱哥幾個也得摻和一手~ 所以一夜之間,各路電視、ott盒子都要加語音。再之后,智能后視鏡、智能音箱、智能家居、機(jī)器人、玩具等等都加入了這場語音大戰(zhàn)。

圖片來自網(wǎng)絡(luò)

本半仙身邊接觸語音的朋友也越來越多。很多人來問我,語音產(chǎn)品的“產(chǎn)品”到底是做個啥?不就對機(jī)器說句話讓機(jī)器去做個事兒嚒。比如:

用戶:二傻,快打開空調(diào),熱死老子了!

語音產(chǎn)品:你才二傻你全家都是二傻!

艾瑪真不好意思,記錯臺詞了……

我們再來一條——

用戶:你好二傻,打開空調(diào)。

語音產(chǎn)品:已為您打開空調(diào)。嗶——

你看,技術(shù)都做好了,做個“UI”把現(xiàn)成技術(shù)打個包,和巴和巴就鼓搗出一個產(chǎn)品了,這也太容易了!這就是業(yè)內(nèi)普遍的認(rèn)知。所以做語音的產(chǎn)品人員(包括本半仙在內(nèi))職級普遍都不高,甚至是主業(yè)為其它,順帶著做語音。就更別提語音的交互體驗(yàn)設(shè)計(jì)師咯,要想做到高級別更是難上加難。資深的語音產(chǎn)品和語音交互,大部分都在訊飛、nuance、谷歌等大佬手里攥著。想挖他們,好說嘛——砸錢!但對于囊中羞澀的小企業(yè)來說,掂量掂量荷包,也只能感嘆既生瑜何生挖不到瑜的企業(yè)。

圖片來自網(wǎng)絡(luò)

而對于新手來說,交互基本都是從GUI的知識體系中培養(yǎng)出來的孩子,大部分都是擅長強(qiáng)視覺交互,對于語音這種“弱視覺強(qiáng)邏輯”的交互,要做起來就會很吃力。產(chǎn)品也是類似,從設(shè)計(jì)或者其它行業(yè)轉(zhuǎn)到語音行業(yè)來做產(chǎn)品的人可能擁有很多的想法和創(chuàng)造力,但是他們不了解這個行業(yè)的瓶頸,往往很難落地。做技術(shù)或者語音研發(fā)轉(zhuǎn)過來做產(chǎn)品的人,了解技術(shù)的局限性,能落地,但卻缺乏創(chuàng)造力和對體驗(yàn)的洞察力。想要找到一個好的語音產(chǎn)品和語音交互,真的是難于上青天!

圖片來自網(wǎng)絡(luò)

不過整個語音行業(yè)被推到風(fēng)口其實(shí)也沒幾年,所以整個產(chǎn)業(yè)結(jié)構(gòu)體系還不健全,各個職位和工種定位還不清晰,是這個行業(yè)處于過渡期的正?,F(xiàn)象。

其實(shí)和語音相關(guān)的業(yè)內(nèi)資料多如牛毛,畢竟人工智能這行業(yè)也是經(jīng)過了六十多年積淀的??删W(wǎng)上只要和語音和人工智能相關(guān)的文章,常常筆鋒一變就開始討論深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)這些課題,然后帶出一大堆看不懂的術(shù)語,一大堆不知道對不對的公式,一大堆不知所云的論文,然后,呃,就沒有然后了……

圖片來自網(wǎng)絡(luò)

這無疑給像本半仙一樣熱愛學(xué)習(xí)的好童鞋去學(xué)習(xí)和理解這個行業(yè),帶來了諸多困擾。所以從今天起,本半仙將嘗試著把平時帶團(tuán)隊(duì)時教的一些零碎的知識整理出來跟大家分享。來來來,童鞋們都拿好小本本搬好小板凳排排坐哈,咱們修仙,哦不,是語音分享大會正式開始——

人工智能的愿景說白了就是希望機(jī)器能夠替代人。所以,人工智能大部分是以“人”為原型的。我們可以在自己身上或者生活中,找到足夠多的真實(shí)樣本,去理解這個看似很深奧的領(lǐng)域。再來看語音,它存在于我們每天都在經(jīng)歷的再平常不過的對話和溝通中。從表現(xiàn)來看,語音就是“我發(fā)出一個聲音給你,然后你再回饋一個聲音給我,循環(huán)反復(fù),直到對話結(jié)束”。所以這么看來,語音的過程很簡單。但在現(xiàn)實(shí)生活中,為什么有些人會讓你覺得很難溝通,而有些人你又覺得很好溝通呢?因?yàn)槁曇糁皇潜硐?,每段聲音都承載著具體的內(nèi)容,而內(nèi)容又承載著每一個人的認(rèn)知閱歷、性格情緒、思維方式、理解能力等等,甚至一段一模一樣的話,在對話雙方所處的不同心境、不同語境、不同環(huán)境下,結(jié)果都完全不一樣;我們每天都需要不斷去思考,而語音就在我們身邊,想做語音產(chǎn)品的朋友,需要明白思考的重要性:一方面是真正的理解人工智能的差異,另一方面是做好心理準(zhǔn)備。語音絕對不是把語音語義放到一起就能做好的,這是一條仍重而道遠(yuǎn),挑戰(zhàn)與樂趣并存的道路。

我發(fā)出一個聲音給你,然后你再回饋一個聲音給我,循環(huán)反復(fù),直到對話結(jié)束。

先將上面提到的一句話,拆分成兩段。前半部分,我們把它叫做“一次(輪)語音交互”;后半部分,從“對話開始”到“對話結(jié)束”,我們把它叫做“一個完整的對話”。一個完整的對話,可以由一次交互完成,也可以由多次交互完成,對于“一次”或“多次”的設(shè)計(jì)和管理,我們叫它“語音對話管理”或者”語音交互流程設(shè)計(jì)(或管理)“等(技術(shù)上,經(jīng)常會看到“Dialogue Management”之類的模塊,指的就是這個部分)。如下圖:

一次語音交互

說到一次語音交互,我相信你第一個想到的就是語音識別。其實(shí)不是的,具體過程如下圖:

我先聊一個語音中的一個經(jīng)典問題:

假設(shè)你在一個燈光耀眼、喧囂熱鬧的酒吧里。盡管周邊的噪音很大,盡管周圍的人使用的是各自的母語,比如英文、西語、法語、葡萄牙語等等,此時,如果遠(yuǎn)處突然有人用中文叫一聲“二傻——”,你是不是會立馬回過頭看看誰在叫你?哈哈,開個玩笑。但這其實(shí)是語音中一個非常經(jīng)典的現(xiàn)象,稱之為“雞尾酒會效應(yīng)”,它體現(xiàn)出了人耳在聽覺上的天賦異稟,同時也是語音識別中的經(jīng)典難題。

在這個例子里,我們先做了一件事,就是“聽清楚”,我們把這個過程,叫做“信號處理”。信號處理的目的是能夠讓這段聲音,盡可能干凈,盡可能高質(zhì)量地提取出來。而要做到這個,需要解決很多問題,比如:

“聲源定位”,也就是在環(huán)境中,找到叫你“二傻”的那個人的具體位置;

“降噪”,將“酒吧的噪音”、“其它人交談的噪音”等等,都消除干凈,從而讓你的二,哦不,是“二傻”這兩個字凸顯出來。

早年語音都是做在手機(jī)APP里的,“信號處理”這個部分很少會被提及?,F(xiàn)在語音在各個端上的使用越來越普及,比如汽車、音響、機(jī)器人、智能家居等等,語音所處的環(huán)境也越來越復(fù)雜,語音硬件的方案也越來越豐富(圖中是車內(nèi)雙麥陣列所收錄的音頻數(shù)據(jù),所以真實(shí)收錄的聲音有兩組,回路信號以后再聊)。所以我會非常強(qiáng)調(diào),語音產(chǎn)品對于“信號處理”的認(rèn)知也是非常重要的。

當(dāng)我們“聽清楚”了之后就要“識內(nèi)容”,要辨識出聲音中的具體內(nèi)容,這是我們經(jīng)常說到的“語音識別”,即“聲音轉(zhuǎn)寫成文字”的過程;如上圖分析,用戶說的是:“二傻,現(xiàn)在幾點(diǎn)了?”。

知道內(nèi)容了,就得“想意思”,想內(nèi)容里的具體意思,我們叫這個過程為“語義理解”,即“自然語言理解”;用戶的意思是:“他期望我反饋”、“現(xiàn)在”、“時間”、“具體時間中的小時”;聽懂了,就得“去行動”,得先看下手表里顯示的現(xiàn)在時間,然后把小時的數(shù)值反饋給他,我們把這個處理過程稱為“語義處理”;行動完了,要“想話術(shù)”,同樣都是告訴他時間,說法會有很多種,可以說“5點(diǎn)”,也可以說“現(xiàn)在是2018年5月3日17點(diǎn)03分50秒”,也可以說“還早,剛過5點(diǎn),咋啦,晚上有約???”等等,不同的表達(dá)方式,會給人帶來不一樣的體驗(yàn)和感受(這對于語音的體驗(yàn)是一個非常關(guān)鍵且容易被忽略的點(diǎn),語音的產(chǎn)品經(jīng)理和交互設(shè)計(jì)師務(wù)必注意,都拿出小本本記好了?。覀兎Q這個過程為“語言生成”;當(dāng)然,我們也會把“想意思”->“去行動”->“想話術(shù)”放在一起,都叫做“自然語言處理”(NLP)。

想清楚怎么表達(dá)之后,就要“說出來”,將“文字轉(zhuǎn)換成聲音”的過程,我們叫它“語音合成”,之后再通過揚(yáng)聲器播放出來,不同的聲音會給人帶來不同的感受,比如“郭德綱”和“林志玲”,兩種聲音給人的體驗(yàn)是不一樣。

一次語音交互

=“聽清楚”->“識內(nèi)容”->“想意思”->“去行動”->“想話術(shù)”->“說出來”

=“信號處理”->“語音識別”->“語義處理”->“語音合成”

“一個完整的對話”

多次交互組合在一起,形成一個完整的對話;如圖:

當(dāng)我們理解意思之后,要“去行動”,這個行動是什么,和當(dāng)前對話的具體內(nèi)容是有關(guān)的。比如問天氣“今天天氣咋樣?”,這句話里沒有“城市”,我們在設(shè)計(jì)交互流程的時候,就有很多選擇。比如反問他“你想知道哪的天氣?”,讓他告訴你;當(dāng)然也可以自己去“找當(dāng)前位置是哪個城市”,根據(jù)這個“結(jié)果”來決定。如果結(jié)果是“上海”,那就去找“上?!薄敖裉臁钡摹疤鞖狻薄?/p>

和我們正常溝通是一樣的,后面聊的內(nèi)容和前面說的內(nèi)容會有一定的相關(guān)性,我們稱這個相關(guān)的部分,叫“上下文”。上下文可以幫助我們“記憶”當(dāng)前對話的一些信息,比如,之前問“今天的天氣咋樣?”,之后再問“那北京那旮沓呢?”,“問天氣”這個就屬于上下文了,不用再說一次,這也是符合人與人之間的對話方式。

這些復(fù)雜的流程的具體設(shè)計(jì),我們稱之為“語音交互設(shè)計(jì)”,也是今天大部分人定義“語音交互體驗(yàn)設(shè)計(jì)師”這個崗位的主要工作內(nèi)容。

在這里所提到的“信號處理”、“語音識別”、“語義理解”等等人工智能里的嬌寵,都有一個共同特點(diǎn),就是“概率性”。“聽清楚”不能保證一定聽得清楚,“識內(nèi)容”不一定全都能辨識清楚,也可能錯了漏了,“想意思”也可能根本不能理解意思,甚至可能南轅北轍,完全曲解,這些都是有一定概率會出現(xiàn)的。其實(shí)人也一樣,很吵的時候,人也不一定聽得清楚;有些時候,也可能聽漏和聽錯;語言中有很多都是有歧義有多重含義的,人都有可能會理解錯誤,更何況機(jī)器呢?

很多產(chǎn)品的童鞋會在這個時候會說“這都是技術(shù)該解決的問題,產(chǎn)品只要想清楚場景,定義好規(guī)則就好”。No,no,?no,?技術(shù)的瓶頸是客觀存在的,想真正做好語音的產(chǎn)品,就必須直面這些局限性,在這些困難之上,逐步構(gòu)建起一個產(chǎn)品體系,去滿足用戶的訴求,去實(shí)現(xiàn)市場的期望。

圖片來自網(wǎng)絡(luò)

概念和產(chǎn)品就像理想和現(xiàn)實(shí),人與人的最基本的對話,看似很平常很簡單,想要真正做到,卻是非常復(fù)雜和困難的?;蛟S研發(fā)將幾個模塊集成到一起,就能在一個終端上把語音對話實(shí)現(xiàn)出來,但這也只是有一個demo而已,真正要交付一款好的語音產(chǎn)品,遠(yuǎn)比想象中的難。換句話說,有的人和你溝通,可能三言兩語你就想讓丫滾犢子,而有的人,卻可以和你嘮三天三夜還意猶未盡。找個能說話的人容易,找個懂說話藝術(shù)的人可能就不那么容易了。

對于語音產(chǎn)品而言,我們不僅要對“人”深度思考,洞悉出人的真正訴求,從中抽象出最適合的產(chǎn)品體驗(yàn),也要對“人工智能”深度思考,直面現(xiàn)實(shí)的局限性,腳踏實(shí)地,扎扎實(shí)實(shí)做產(chǎn)品,踏踏實(shí)實(shí)磨體驗(yàn)。

好啦,今天的分享會到此結(jié)束,我們下期再見!

圖片來自網(wǎng)絡(luò)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 本白皮書前期在國標(biāo)委工業(yè)二部和工信部科技司的指導(dǎo)下,通過梳理人工智能技術(shù)、應(yīng)用和產(chǎn)業(yè)演進(jìn)情況,分析人工智能的技術(shù)熱...
    筆名輝哥閱讀 24,610評論 2 143
  • 1、人民日報(bào):發(fā)展租賃市場,本意在于補(bǔ)上短板、“租購并舉”,絕非為炒作者提供轉(zhuǎn)場空間。炒房危害大,炒“租”同樣如此...
    陳穎Christine閱讀 362評論 0 1
  • 第二章 教學(xué)理論的形成和發(fā)展 第一節(jié) 教學(xué)理論的形成 一、 拉特拉和夸美紐斯的didactica ? 在西方教育史...
    暖暖0511閱讀 586評論 0 0
  • 昨天孩子不舒服,我熬了一晚上沒睡,總覺得今晚上肯定能睡個好覺了,孩子爭氣,沒吵我,自己睡了,我呢?許是錯過了困勁兒...
    紫云英_6936閱讀 202評論 0 0
  • 想起來到人世將近四十年時間,好像現(xiàn)在才開始認(rèn)真思考生活,才能看到自己。今天聽到一個故事,讓我倏的一下子想到了...
    李小易閱讀 561評論 1 0

友情鏈接更多精彩內(nèi)容