人與人之間的語言交流過程,往往會(huì)經(jīng)過【聽音-辨意-表達(dá)】的三個(gè)步驟,用通俗的話解釋,即先用我的“耳朵”聽清楚你在說什么?收到你發(fā)來的信息后,“大腦”已經(jīng)開始同步運(yùn)作,后臺(tái)解析你說話目的意圖(intention)和情緒狀態(tài),最后將我想要表達(dá)的觀點(diǎn),用“嘴巴”說出來。
人工智能科學(xué)家們想要實(shí)現(xiàn)的“智能交互”,其實(shí)可以看做類似的原理和過程。時(shí)至今日,自然語言處理NLP領(lǐng)域也取得了令人驚喜的成果。不過,機(jī)器要變得像人一樣聰明,能變成像電影里“瓦力”或者終結(jié)者“T-800”,還有很長一段路走。無論計(jì)算機(jī)軟硬件技術(shù)突破與發(fā)展,還是科學(xué)家們對(duì)語言學(xué)、心理學(xué)及生物學(xué)的深入研究,需要共同努力。但與人類通過自然演化法則,從古代智人一步步進(jìn)化成為現(xiàn)代人類過程不同,機(jī)器人的進(jìn)化程度是呈指數(shù)級(jí)發(fā)展,它們不斷“小步快跑,迭代更新”,隨著變量的累積,機(jī)器人會(huì)越來越聰明。
筆者之前介紹過的自動(dòng)語音合成TTS,就好比機(jī)器人的“嘴巴”,機(jī)器人是如何說話的。今天聊聊機(jī)器人的“耳朵”,它們是如何聽見、聽清你說的話,即自動(dòng)語音識(shí)別(Automatic Speech Recognition,ASR),ASR的任務(wù)是準(zhǔn)確,高效的將語音信號(hào)轉(zhuǎn)化為文字信息。
所謂自動(dòng)語音識(shí)別ASR,系統(tǒng)主要包含特征提取、聲學(xué)模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波、分幀等預(yù)處理工作,把要分析的信號(hào)從原始信號(hào)中提取出來。之后,特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型中再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分;而語言模型則根據(jù)語言學(xué)相關(guān)的理論,計(jì)算該聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對(duì)詞組序列進(jìn)行解碼,得到最后可能的文本表示。
“Hey~同學(xué),你在說啥?能不能說點(diǎn)人話?”
“哦哦,上面是請(qǐng)教一些技術(shù)大咖后的專業(yè)解釋,我盡可能的用大白話翻譯下~”
傳統(tǒng)的語音識(shí)別和我們現(xiàn)在常見的指紋識(shí)別,差不多。比如你說一句“青春萬歲”,智能手機(jī)會(huì)先通過麥克風(fēng),收集到我們說話的聲音。因?yàn)槲覀冋f話的聲音是屬于模擬信號(hào),所以收集到我們的聲音之后,要先把模擬信號(hào)轉(zhuǎn)化成數(shù)字信號(hào)。轉(zhuǎn)換完成之后,就要對(duì)這個(gè)信號(hào)進(jìn)行處理。這個(gè)訓(xùn)練的過程和我們大學(xué)時(shí)軍訓(xùn)相似(訓(xùn)練目的 標(biāo)準(zhǔn)化和結(jié)構(gòu)化)。軍訓(xùn)之前,大家站姿,走路姿勢(shì)都是千差萬別。軍訓(xùn)完畢,大家站姿,走路姿勢(shì)基本一致,我們說話收集到的聲音也是一個(gè)道理。我們說話的時(shí)候,除了有噪音,每個(gè)人說話聲音的大小和快慢也是不一樣的,經(jīng)過處理之后,讓這些聲音大體上在聲音大小,語速快慢上變得差不多。這樣可以后續(xù)識(shí)別變得更容易。
完成上述步驟,接下去就是要提取語音信號(hào)的特征信息。但在提取信息之前,我們要先把語音信號(hào)給切成一小塊一小塊的,然后再提取每一小塊的語音特征信息,比如聲調(diào)這些特征信息。提取完語音特征信息后,會(huì)先把語音信號(hào)放到一個(gè)聲學(xué)模型里面,這個(gè)聲學(xué)模型里面,就有所有文字的發(fā)音。然后在聲學(xué)模型里面,找到和我們說話聲音最匹配的對(duì)象。找到聲學(xué)模型最匹配的聲音后,再把它放到另一個(gè)語言模型里面,這個(gè)語言模型里面放了我們各種說的話,句子,古詩,文言文等等。語音識(shí)別系統(tǒng)就在里面找,看哪個(gè)句子的發(fā)音最接進(jìn)“青春萬歲”。
但這種傳統(tǒng)的ASR處理方式,工作量會(huì)非常大,你得有盡可能多的語音素材去匹配啊。那有沒有更好的解決方式呢?有!
隨著2006年之后掀起的深度學(xué)習(xí)浪潮,使得語音識(shí)別技術(shù)得到了突飛猛進(jìn)的發(fā)展。2009年,人工智能科學(xué)家首次將深度神經(jīng)網(wǎng)絡(luò)(Deep Nerual Network,DNN)應(yīng)用到語音識(shí)別中。他們?cè)O(shè)計(jì)了DNN-HMM模型,在3小時(shí)的數(shù)據(jù)集TIMIT上對(duì)音素識(shí)別任務(wù)取得了很好的效果。深度神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的作用被一步步更深地挖掘,直接采用HMM-DNN 混合模型便成了更好的選擇。在 HMM-DNN 混合模型中,我們將不同狀態(tài)使用的多個(gè) GMM 模型通過一個(gè)深度神經(jīng)網(wǎng)絡(luò)代替。
運(yùn)用深度學(xué)習(xí)技術(shù),將ASR從傳統(tǒng)的“概率圖模型”轉(zhuǎn)向計(jì)算機(jī)機(jī)器人的“自我認(rèn)知”模式。
在過去的幾個(gè)月里,語音技術(shù)(ASR+NLP+TTS)開始受到越來越多人的關(guān)注與青睞。 從亞馬遜的Echo到蘋果公司的HomePod,以及就在不久前華為發(fā)布的AI智能音箱,每家科技公司都參與了進(jìn)來。
我們不得不面對(duì)更根本的問題:語音技術(shù)到底增加了什么價(jià)值?給我們生活帶來了哪些變化?
百度研究顯示,2014年至2016年間,API對(duì)文本朗讀服務(wù)的要求增加了20倍以上(http://www.webhostingreviewsbynerds.com/what-does-meekers-internet-trends-report-tell-us-about-voice-search/)。這表明人們不僅僅是向語音提出更多的問題,還期待更多答案。

而在一些日常生活領(lǐng)域,我們也在使用著ASR以及自然語言處理NLP技術(shù)帶來的高效和便利性,譬如:
1、在改進(jìn)企業(yè)工作流程,自動(dòng)化數(shù)據(jù)轉(zhuǎn)錄方面。
中國人平均每分鐘打字40字,口述為150字左右。盡管如今的千禧一代手工靈敏,但是語音驅(qū)動(dòng)的界面將比敲擊鍵盤快得多。我看到,身邊已經(jīng)有越來越多的年輕人開始使用微信語音轉(zhuǎn)文字功能。醫(yī)生平均每天花費(fèi)一到兩個(gè)小時(shí)的時(shí)間手動(dòng)將數(shù)據(jù)輸入到電子健康記錄系統(tǒng)中。若使用更好的口授軟件,這些寶貴的時(shí)間便可以被更好地利用。
2009 年時(shí) Google 便已經(jīng)利用語音識(shí)別技術(shù)在 YouTube上提供實(shí)時(shí)的“自動(dòng)字幕(Automatic Captions)”功能,讓客戶可以在避免干擾到他人的前提上在不開啟喇叭的狀況下觀賞網(wǎng)絡(luò)上各種影片內(nèi)容,YouTube則利用Google的自動(dòng)語音識(shí)別技術(shù)(ASR)給YouTube視頻加入字幕。
2、減少了信息導(dǎo)航的時(shí)間,包括高德地圖駕駛導(dǎo)航:
在一些實(shí)體環(huán)境中,例如一些工業(yè)場(chǎng)地或者正在開車,使用屏幕將會(huì)受到限制。在這種情況下,語音驅(qū)動(dòng)界面不僅可以加速對(duì)信息服務(wù)的訪問,還可以使其更加安全。超過三分之一的語音用戶已經(jīng)將其汽車引用為語音應(yīng)用程序的主要載體。
3、增強(qiáng)員工培訓(xùn),改善客戶服務(wù)/銷售,使對(duì)話透明(語音質(zhì)檢)
一些企業(yè)每年跟蹤記錄數(shù)百萬小時(shí)的客戶服務(wù)和銷售電話。目前,這些記錄主要用于監(jiān)控常規(guī)的統(tǒng)計(jì)數(shù)據(jù),如通話量、解決問題時(shí)長和滿意度調(diào)查分?jǐn)?shù)。然而,只關(guān)注統(tǒng)計(jì)數(shù)據(jù)而不是對(duì)話內(nèi)容,將會(huì)增大忽視重要見解的風(fēng)險(xiǎn)。通過實(shí)際監(jiān)控這些通話,企業(yè)可以發(fā)現(xiàn)新的以客戶為導(dǎo)向的建議,找出更能引起顧客共鳴的產(chǎn)品介紹。通過語音驅(qū)動(dòng)的分析工具,這些見解可以在一定規(guī)模上從那些被認(rèn)為的茫茫電話錄音庫數(shù)據(jù)中提取。
“同學(xué),我看到你不僅提到ASR,還有叫NLP的詞,這是啥意思?”
“Bingo,回到開頭介紹的人與人之間溝通交流【聽音-辨意-表達(dá)】三個(gè)過程,對(duì)于人機(jī)交互而言,計(jì)算機(jī)功能不僅在于聽清楚人說的話,更重要的在于,計(jì)算機(jī)是否能聽懂理解人的所述說感,識(shí)別分析人的情感和意圖,這就是自然語言處理技術(shù)NLP”
“很難嗎?”
“很難,尤其是中文領(lǐng)域,更需要先行者們?nèi)L試,去突破。”