語音識別技術(shù)在人工智能中的應(yīng)用

姓名:成杰? ? ?學(xué)號:21021210653? ? 學(xué)院:電子工程學(xué)院

【嵌牛導(dǎo)讀】

應(yīng)用語音智能這項識別技術(shù)是為了使計算機可以聽懂人類的語言,并執(zhí)行人類的某項操作?,F(xiàn)階段這項技術(shù)已經(jīng)成為人工智能領(lǐng)域的重點研究方向和實現(xiàn)人機語音交互的關(guān)鍵性技術(shù),一直備受世界各國人工智能領(lǐng)域?qū)<业闹攸c關(guān)注。

【嵌牛鼻子】

人工智能、語音識別

【嵌牛提問】

語音識別技術(shù)的當(dāng)前主要解決方法以及深度學(xué)習(xí)框架下語音識別技術(shù)的發(fā)展前景

【嵌牛正文】?

1. 人工智能簡介

??? 人工智能(英語:Artificial Intelligence,縮寫為AI)亦稱智械、機器智能,指由人制造出來的機器所表現(xiàn)出來的智能。通常人工智能是指通過普通計算機程序來呈現(xiàn)人類智能的技術(shù)。該詞也指出研究這樣的智能系統(tǒng)是否能夠?qū)崿F(xiàn),以及如何實現(xiàn)。人工智能的研究是高度技術(shù)性和專業(yè)的,各分支領(lǐng)域都是深入且各不相通的,因而涉及范圍極廣。

AI的核心問題包括建構(gòu)能夠跟人類似甚至超卓的推理、知識、規(guī)劃、學(xué)習(xí)、交流、感知、移物、使用工具和操控機械的能力等。當(dāng)前有大量的工具應(yīng)用了人工智能,其中包括搜索和數(shù)學(xué)優(yōu)化、邏輯推演。而基于仿生學(xué)、認(rèn)知心理學(xué),以及基于概率論和經(jīng)濟(jì)學(xué)的算法等等也在逐步探索當(dāng)中。 思維來源于大腦,而思維控制行為,行為需要意志去實現(xiàn),而思維又是對所有數(shù)據(jù)采集的整理,相當(dāng)于數(shù)據(jù)庫,所以人工智能最后會演變?yōu)闄C器替換人類。

早期的人工智能研究人員直接模仿人類進(jìn)行逐步的推理,就像是玩棋盤游戲或進(jìn)行邏輯推理時人類的思考模式。到了1980和1990年代,利用概率和經(jīng)濟(jì)學(xué)上的概念,人工智能研究還發(fā)展了非常成功的方法處理不確定或不完整的資訊。

對于困難的問題,有可能需要大量的運算資源,也就是發(fā)生了“可能組合爆增”:當(dāng)問題超過一定的規(guī)模時,電腦會需要天文數(shù)量級的存儲器或是運算時間。尋找更有效的算法是優(yōu)先的人工智能研究項目。

人類解決問題的模式通常是用最快捷,直觀的判斷,而不是有意識的,一步一步的推導(dǎo),早期人工智能研究通常使用逐步推導(dǎo)的方式。人工智能研究已經(jīng)于這種“次表征性的”解決問題方法取得進(jìn)展:實體化AGENT研究強調(diào)感知運動的重要性。神經(jīng)網(wǎng)絡(luò)研究試圖以模擬人類和動物的大腦結(jié)構(gòu)重現(xiàn)這種技能。

2. 問題——語音識別技術(shù)在人工智能中的應(yīng)用

應(yīng)用語音智能這項識別技術(shù)是為了使計算機可以聽懂人類的語言,并執(zhí)行人類的某項操作?,F(xiàn)階段這項技術(shù)已經(jīng)成為人工智能領(lǐng)域的重點研究方向和實現(xiàn)人機語音交互的關(guān)鍵性技術(shù),一直備受世界各國人工智能領(lǐng)域?qū)<业闹攸c關(guān)注?,F(xiàn)階段各種以語音智能這項識別技術(shù)為基礎(chǔ)的產(chǎn)品也被開發(fā)出來,并廣泛應(yīng)用于我國社會發(fā)展的各個領(lǐng)域,還在應(yīng)用方面展現(xiàn)出了極大的優(yōu)勢,如聲控電話交換和語音通信系統(tǒng)等。但在語音識別這項技術(shù)的實際應(yīng)用過程中,還存在不少技術(shù)方面的瓶頸,怎樣通過融合人工智能技術(shù)和芯片,來使語音智能識別這項技術(shù)實現(xiàn)更好地發(fā)展,這是本世紀(jì)內(nèi)中最重要的一項研究課題之一。

3. 當(dāng)前主要解決方法

????? 目前具有代表性的語音識別方法主要有動態(tài)時間規(guī)整技術(shù)(DTW)、隱馬爾可夫模型(HMM)、矢量量化(VQ)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVM)等方法。

4. 各個方法分析

(1)動態(tài)時間規(guī)整算法

動態(tài)時間規(guī)整算法是在非特定人語音識別中一種簡單有效的方法,該算法基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別技術(shù)中出現(xiàn)較早、較常用的一種算法。在應(yīng)用DTW算法進(jìn)行語音識別時,就是將已經(jīng)預(yù)處理和分幀過的語音測試信號和參考語音模板進(jìn)行比較以獲取他們之間的相似度,按照某種距離測度得出兩模板間的相似程度并選擇最佳路徑。

(2)隱馬爾可夫模型(HMM)

隱馬爾可夫模型是語音信號處理中的一種統(tǒng)計模型,是 由Markov鏈演變來的,所以它是基于參數(shù)模型的統(tǒng)計識別方法。由于其模式庫是通過反復(fù)訓(xùn)練形成的與訓(xùn)練輸出信號吻合概率最大的最佳模型參數(shù)而不是預(yù)先儲存好的模式樣本,且其識別過程中運用待識別語音序列與HMM參數(shù)之間的似然概率達(dá)到最大值所對應(yīng)的最佳狀態(tài)序列作為識別輸出,因此是較理想的語音識別模型。

?? (3)矢量量化

?????????? 矢量量化(Vector Quantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是將若干個語音信號波形或特征參數(shù)的標(biāo)量數(shù)據(jù)組成一個矢量在多維空間進(jìn)行整體量化。把矢量空間分成若干個小區(qū)域,每個小區(qū)域?qū)ふ乙粋€代表矢量,量化時落入小區(qū)域的矢量就用這個代表矢量代替。矢量量化器的設(shè)計就是從大量信號樣本中訓(xùn)練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量實現(xiàn)最大可能的平均信噪比。在實際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,包括無記憶的矢量量化、有記憶的矢量量化和模糊矢量量化方法。

? (4)人工神經(jīng)網(wǎng)絡(luò)(ANN)

????????? 人工神經(jīng)網(wǎng)絡(luò)(ANN)是20世紀(jì)80年代末期提出的一種新的語音識別方法。其本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性,其強大的分類能力和輸入—輸出映射能力在語音識別中都很有吸引力。其方法是模擬人腦思維機制的工程模型,它與HMM正好相反,其分類決策能力和對不確定信息的描述能力得到舉世公認(rèn),但它對動態(tài)時間信號的描述能力尚不盡如人意,通常MLP分類器只能解決靜態(tài)模式分類問題,并不涉及時間序列的處理。盡管學(xué)者們提出了許多含反饋的結(jié)構(gòu),但它們?nèi)圆蛔阋钥坍嬛T如語音信號這種時間序列的動態(tài)特性。由于ANN不能很好地描述語音信號的時間動態(tài)特性,所以常把ANN與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點來進(jìn)行語音識別而克服HMM和ANN各自的缺點。近年來結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法研究取得了顯著進(jìn)展,其識別率已經(jīng)接近隱含馬爾可夫模型的識別系統(tǒng),進(jìn)一步提高了語音識別的魯棒性和準(zhǔn)確率。

?(5)支持向量機(Support vector machine)

支持向量機是應(yīng)用統(tǒng)計學(xué)理論的一種新的學(xué)習(xí)機模型,采用結(jié)構(gòu)風(fēng)險最小化原理,有效克服了傳統(tǒng)經(jīng)驗風(fēng)險最小化方法的缺點。兼顧訓(xùn)練誤差和泛化能力,在解決小樣本、非線性及高維模式識別方面有許多優(yōu)越的性能,已經(jīng)被廣泛地應(yīng)用到模式識別領(lǐng)域。

5. 語言智能方面識別技術(shù)的應(yīng)用瓶頸

截止目前,語音智能這項識別技術(shù)有以下幾個主要問題:

(1)識別語音的過程中很容易受到外界干擾。不同種類的麥克風(fēng)所具備的性能存在差異性,這也會對識別的結(jié)果造成很大影響。另外,在環(huán)境噪音較強的情況下提取聲音,其識別結(jié)果也會受到一定程度的干擾。這些因素的存在都會影響識別聲音效果的準(zhǔn)確性。

(2)識別聲音的系統(tǒng)仍然不夠完善。這項技術(shù)在識別不同種類語言方面會受到較大限制,一般只能識別普通話,無法識別地方方言。這項技術(shù)在汽車和手機上都有廣泛使用,針對的用戶群體相對比較復(fù)雜,如果用戶不會說普通話或者方言口音較重,那么聲音識別系統(tǒng)暫時還無法有效識別。這種類型的語音導(dǎo)致實際應(yīng)用范圍比較受限。

(3)無法進(jìn)行準(zhǔn)確識別和判斷。通常情況下人類聲音在各種不同條件下,可能會發(fā)生一定程度的變化。例如,在人類身體狀況有一定變化時,也會影響語音識別系統(tǒng)對語音的識別效果。另外,在一些特殊情況下,這種瓶頸的存在容易導(dǎo)致安全隱患。

6. 總結(jié)與反思

就現(xiàn)階段而言,人工智能技術(shù)在我國社會發(fā)展的各個領(lǐng)域中都有著廣泛的應(yīng)用,而且發(fā)展速度十分迅猛。在其迅猛發(fā)展的背景下,也遇到了亟待解決的技術(shù)問題,主要是因為計算機還未能實現(xiàn)全智能化的技術(shù)控制,這為人工智能領(lǐng)域識別技術(shù)的創(chuàng)新和發(fā)展造成了一定制約。在人工智能領(lǐng)域發(fā)展識別技術(shù),要想真正實現(xiàn)全智能化操作,就需要進(jìn)一步完善和優(yōu)化其主觀意識。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容