姓名:蘆凱 ? ? ?學(xué)號:17011210546
轉(zhuǎn)載自:中關(guān)村在線,原文鏈接:http://mobile.zol.com.cn/665/6656792_all.html#p6657840
【嵌牛導(dǎo)讀】淺析語音識別技術(shù)。
【嵌牛鼻子】語音識別
【嵌牛提問】語音識別技術(shù)在現(xiàn)在有哪些應(yīng)用?
【嵌牛正文】
離人工智能統(tǒng)治世界還有多遠
前不久,中文版Bixby開始公測,雖然這并不是Bixby的首次發(fā)布,但卻意味著新的語音巨頭開始打入中國市場。在我們的測試中發(fā)現(xiàn),Bixby擁有優(yōu)良的識別率,可以實現(xiàn)語音開鎖、語音文本轉(zhuǎn)換,并且用戶可以通過語音對手機進行電話短信、軟件控制、第三方內(nèi)容接入等各種各樣的操作。從某種意義上來說,手機已經(jīng)實現(xiàn)聽懂人的語音。

當我們看到科幻電影中能與人類對話的人工智能時還會感到十分高科技,其實語音助手早已悄無聲息的進入了我們的生活,以至于當你看到現(xiàn)在優(yōu)秀的語音產(chǎn)品時并不會感到陌生。在我們大多數(shù)人的印象中,語音助手仍是比較“弱智”的存在,其實這點也并不能否認。因為機器沒有智慧,它不能像人一樣思考,或者說它還沒有一個足以令它思考的龐大體系。但同樣不可否認的是,語音識別方面的人工智能已經(jīng)擁有相當大的規(guī)模。

舉個非常常見的例子,現(xiàn)在的網(wǎng)絡(luò)電視大多都支持語音搜索功能,這給電視的使用帶來了極大的便利。因為電池的輸入設(shè)備仍舊是遙控,其輸入效率無法與鍵盤匹敵,但支持語音的話,只要對電視輸入語音命令,就可以完成交互,十分便利。另外,語音識別交互也為盲人的設(shè)備使用帶來了福音。其作用不可小覷。

相信有不少沒關(guān)注過語音識別功能的讀者都有這樣的疑問:兄弟,你開玩笑呢吧?無聊時喚出Siri扯兩句,還有家里的智能音箱,就普普通通的語音助手嘛,真有你說得怎么玄乎?而且智能音箱的售價都不貴嘛,高科技的話怎么會這么便宜?還別說,開發(fā)語音助手還真不是個小工程。而且通常來說,語音助手難以靠本身變現(xiàn),至少在你用語音聽寫時,輸入法廠商并沒向你收費。所以沒有雄厚的資金支持是很難堅持到營收的那一天的。

現(xiàn)在我們?nèi)タ凑Z音助手的廠商宣傳,都在說我們的準確率達到了百分之多少。目前來說,準確率達到90%以上已經(jīng)相當不錯。雖然現(xiàn)在已經(jīng)有了這么高的準確率,但我們還是感覺語音助手有些雞肋,這與語言的復(fù)雜性、第三方接口的完善性有很大關(guān)系。本期發(fā)燒學(xué)堂,我們就來聊一聊語音識別的實現(xiàn)原理,以及語音識別的現(xiàn)狀和未來發(fā)展,設(shè)想一下人工智能什么時候會統(tǒng)治世界。
語音識別實現(xiàn)原理:數(shù)據(jù)庫
概括的說,語音識別的原理其實并不難理解,大面上和指紋識別的原理相同:設(shè)備收集目標語音,然后對收集到的語音進行一系列處理,得到目標語音的特征信息,然后讓特征信息與數(shù)據(jù)庫中已存數(shù)據(jù)進行相似度搜索比對,評分高者即為識別結(jié)果。然后通過其他系統(tǒng)的接入來完成設(shè)備的語音識別功能。

如果你對語音識別的興趣不高,那么知道這樣的大致原理已經(jīng)足夠。事實上,語音識別的過程是相當復(fù)雜的。最直接的原因就在于語音的復(fù)雜性。指紋識別只要錄入的指紋信息與數(shù)據(jù)庫中的已存信息匹配就可以完成識別,這個數(shù)據(jù)庫包含的數(shù)據(jù)只有幾個指紋信息而已。但語音就完全不同了。

《康熙字典》容納了漢字47035個,由當時的三十多位著名學(xué)者歷時六年編撰而成。而漢語可不僅僅是孤立的漢字,語言中有升降調(diào),有斷句情感,有不同語義的不同理解。同時,全國各地可都不是說普通話的,方言也有很多種,想要建造一個完善的語言數(shù)據(jù)庫難度可想而知。漢語的復(fù)雜性正是Bixby中文版要晚于英文版發(fā)布的原因。

龐大的語言數(shù)據(jù)庫難以放置于移動端,這也是幾乎所有手機語音助手使用時需要聯(lián)網(wǎng)的原因。語音識別發(fā)展到現(xiàn)在也不是沒有離線版,但我們不難發(fā)現(xiàn),離線版的準確率是要遠遠低于在線版的。另外,剛才我們提到不少語音廠商都宣稱準確率達到90%以上,這可以說是十分了不起的,不夸張的說,這時候每提升1個百分比的準確率,都是質(zhì)的飛躍。這不僅要相當完善的數(shù)據(jù)庫,滿足這樣的準確率還得效率較高的識別提取算法和自學(xué)習(xí)系統(tǒng)。
當然這樣的數(shù)據(jù)我們要以辨證的眼光來看,俗話說,一句話百樣說,漢語言可謂博大精深;而且廠商給出的準確率數(shù)據(jù)的測試很難具備廣泛性,所以有些用戶在使用語音識別功能時發(fā)現(xiàn)它還很“弱智”,實屬正常。
語音識別實現(xiàn)原理:算法和自學(xué)習(xí)
剛才我們提到了識別提取算法和自學(xué)習(xí)系統(tǒng),在這里我們不妨簡單了解一下它們的工作過程:首先語音識別系統(tǒng)對收集到的目標語音進行預(yù)處理,這個過程就已經(jīng)十分復(fù)雜,包含語音信號采樣、反混疊帶通濾波、去除個體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等等。之后對處理的語音進行特征提取。

我們知道,聲音的本質(zhì)是震動,它可以由波形表示,識別則需要對波進行分幀,多個幀構(gòu)成一個狀態(tài),三個狀態(tài)構(gòu)成一個音素。英語常用音素集是卡內(nèi)基梅隆大學(xué)的一套由39個音素構(gòu)成的音素集,漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調(diào)無調(diào)。之后通過音素系統(tǒng)合成單詞或者漢字。當然,之后的匹配和后期內(nèi)容處理也需要相應(yīng)算法來完成。

自學(xué)習(xí)系統(tǒng)則更多的是針對數(shù)據(jù)庫來說。將語音轉(zhuǎn)換成文本的語音識別系統(tǒng)要有兩個數(shù)據(jù)庫,一是可與提取出的信息進行匹配的聲學(xué)模型數(shù)據(jù)庫,二是可與之匹配的文本語言數(shù)據(jù)庫。這兩個數(shù)據(jù)庫需要提前對大量數(shù)據(jù)機型訓(xùn)練分析,也就是所說的自學(xué)習(xí)系統(tǒng),從而提取出有用的數(shù)據(jù)模型構(gòu)成數(shù)據(jù)庫;另外,在識別過程中,自學(xué)習(xí)系統(tǒng)會歸納用戶的使用習(xí)慣和識別方式,然后將數(shù)據(jù)歸納到數(shù)據(jù)庫,從而讓識別系統(tǒng)對該用戶來說更智能。
更進一步總結(jié)一下整個識別過程:對采集的目標語音進行處理,獲取包含關(guān)鍵信息的語音部分——提取關(guān)鍵信息——識別最小單元字詞,分析規(guī)定語法排列——分析整句語義,將關(guān)鍵內(nèi)容斷句排列,調(diào)整文字構(gòu)成——根據(jù)整體信息修改出現(xiàn)輕微偏差的內(nèi)容。
語音識別現(xiàn)狀和未來

人工智能能在這兩年爆發(fā)并不是一朝一夕的事,語音識別也不例外。從最初的語音識別雛形,到現(xiàn)在高達90%以上準確率,已經(jīng)有大約100年的歷史。Radio?Rex玩具狗生產(chǎn)于上個世紀20年代,這款玩具狗在被呼叫時可以彈出來,被視為語音識別的鼻祖。真正意義上的語音識別研究始于上個世紀50年代,AT&T?Bell實驗室打造的Audry系統(tǒng)實現(xiàn)了十個英文數(shù)字的語音識別。
而最近大熱的NPU神經(jīng)網(wǎng)絡(luò),早在60年代就已經(jīng)用于語音識別了。將大詞匯量、連續(xù)語音、非特定人三大特性基于一身的Sphinx系統(tǒng)誕生于80年代末。90年代以來則是語音識別發(fā)展的絕佳時期,政府機構(gòu)對語音識別技術(shù)開始重視,許多著名公司都開始在這方面投入巨資,一大批高水平研究機構(gòu)都加入了語音識別的研究領(lǐng)域,一時間成績顯著。

時至今日,語音識別已經(jīng)有了突破性進展。2017年8月20日,微軟語音識別系統(tǒng)錯誤率由5.9%降低到5.1%,可達到專業(yè)速記員的水平;國內(nèi)語音識別行業(yè)的佼佼者科大訊飛的語音聽寫準確率則達到了95%,表現(xiàn)強悍。國內(nèi)諸如阿里、百度、騰訊等大公司,也紛紛發(fā)力語音識別,前景一片看好。

并且,語音識別系統(tǒng)也不會只僅僅用于之前提到的手機交互、智能音箱命令,在玩具、家具家居、汽車、司法、醫(yī)療、教育、工業(yè)等諸多領(lǐng)域,語音識別系統(tǒng)將發(fā)揮不可忽視的作用。畢竟在當下人工智能剛剛起步的時代,在設(shè)備無法便捷的探知人類想法之前,語音交互都是最高效的人機交互方式。
寫在最后
看到這里,相信大家已經(jīng)對語音識別有了一個大致的了解。我們在手機、智能音箱上看到的語音識別,只是語音識別領(lǐng)域表現(xiàn)出的冰山一角,而我們在未來也將會看到有更多形式的語音識別用于日常生活的各個方面,比如語音識別系統(tǒng)配合無人駕駛汽車,只要你跟汽車說去哪,汽車就可以自動載你達到目的地。
人工智能什么時候會統(tǒng)治世界,這個問題確實不好說。人工智能已經(jīng)掌握了自然語言的本領(lǐng),即便相對于人類的語言能力還很初級,但已經(jīng)可以依據(jù)程序給出相應(yīng)內(nèi)容,這就具備了擁有智慧的條件,從某種意義上說,人類智慧就是由一項項基礎(chǔ)功能集成而來的。但顯然這不是我們要擔心的問題,期待并享受人工智能帶來的便利就好了。