復(fù)雜問(wèn)題的簡(jiǎn)化:等價(jià)和近似處理。2020-03-26

篤行百天日志 - 026

人類(lèi)信息交流的發(fā)展貫穿了人類(lèi)的進(jìn)化和文明的全過(guò)程。而自然語(yǔ)言是人類(lèi)交流信息的工具,語(yǔ)言和通信的聯(lián)系是天然的。通信的本質(zhì)就是一個(gè)編解碼和傳輸?shù)倪^(guò)程。

1. 通信模型

讓我們先來(lái)看一個(gè)典型的通信系統(tǒng):當(dāng)一個(gè)人(或者機(jī)器)發(fā)送信息時(shí),他需要采用一種能在媒體中(比如空氣、電線(xiàn))傳播的信號(hào)。

  • 比如語(yǔ)音或者電話(huà)線(xiàn)的調(diào)制信號(hào),這個(gè)過(guò)程是廣義上的編碼。
  • 通過(guò)媒體傳播到接收方,這個(gè)過(guò)程是信道傳輸。
  • 在接收方,收聽(tīng)的人(或者機(jī)器)根據(jù)事先約定好的方法,將這些信號(hào)還原成發(fā)送者的信息,這個(gè)過(guò)程是廣義上的解碼。

這樣,幾乎所有的自然語(yǔ)言處理問(wèn)題都可以等價(jià)成通信的解碼問(wèn)題。

2. 隱含馬爾可夫模型
隱含馬爾可夫模型

隱含馬爾可夫模型( Hidden Markov Model)其實(shí)并不是19世紀(jì)俄羅斯數(shù)學(xué)家馬爾可夫( Andrey Markov)發(fā)明的,而是美國(guó)數(shù)學(xué)家鮑姆(LeonardE.Baum)等人在20世紀(jì)六七十年代發(fā)表的一系列論文中提出的。

到了19世紀(jì),概率論的發(fā)展從對(duì)(相對(duì)靜態(tài)的)隨機(jī)變量的研究發(fā)展到對(duì)隨機(jī)變量的時(shí)間序列x1,x2,x3,…,xtr…,即隨機(jī)過(guò)程(動(dòng)態(tài)的)的研究。這在哲學(xué)的意義上,是人類(lèi)認(rèn)識(shí)的一個(gè)飛躍。但是,隨機(jī)過(guò)程要比隨機(jī)變量復(fù)雜得多。

比如,對(duì)于天氣預(yù)報(bào),硬性假定今天的氣溫只與昨天有關(guān)而和前天無(wú)關(guān)。當(dāng)然這種假設(shè)未必適合所有的應(yīng)用,但是至少對(duì)以前很多不好解決的問(wèn)題給出了近似解。這個(gè)假設(shè)后來(lái)被命名為馬爾可夫假設(shè),而符合這個(gè)假設(shè)的隨機(jī)過(guò)程則稱(chēng)為馬爾可夫過(guò)程,也稱(chēng)為馬爾可夫鏈。

隱含馬爾可夫模型是上述馬爾可夫鏈的一個(gè)擴(kuò)展:任一時(shí)刻t的狀態(tài)yt是不可見(jiàn)的。所以觀察者沒(méi)法通過(guò)觀察到一個(gè)狀態(tài)序列y1,y2,y3,yT來(lái)推測(cè)轉(zhuǎn)移概率等參數(shù)。但是,隱含馬爾可夫模型在每個(gè)時(shí)刻t會(huì)輸出一個(gè)符號(hào)bt,而且bt和xt相關(guān)且僅和x相關(guān)。這個(gè)被稱(chēng)為獨(dú)立輸出假設(shè)。隱含馬爾可夫模型的結(jié)構(gòu)如下:其中隱含的狀態(tài)x1,x2,x3是一個(gè)典型的馬爾可夫鏈。這種模型被稱(chēng)為“隱含”馬爾可夫模型。

再舉一個(gè)經(jīng)典的例子:

一個(gè)東京的朋友每天根據(jù)天氣{下雨,天晴}決定當(dāng)天的活動(dòng){公園散步,購(gòu)物,清理房間}中的一種,我們每天只能在twitter上看到她發(fā)的推“啊,我前天公園散步、昨天購(gòu)物、今天清理房間了!”,那么我們可以根據(jù)她發(fā)的推特推斷東京這三天的天氣。在這個(gè)例子里,可觀察的輸出是活動(dòng),隱含狀態(tài)是天氣。

隱含馬爾可夫模型是一個(gè)并不復(fù)雜的數(shù)學(xué)模型,它成功地解決了復(fù)雜的語(yǔ)音識(shí)別、機(jī)器翻譯等問(wèn)題。當(dāng)我們看完這些復(fù)雜的問(wèn)題是如何通過(guò)簡(jiǎn)單的模型描述和解決時(shí),會(huì)不得不由衷地感嘆數(shù)學(xué)模型之妙。


100個(gè)基本之貳拾陸

常對(duì)自己投資。
為體驗(yàn)花錢(qián)。
不用貧窮的方法學(xué)習(xí)。

錢(qián)要用在豐富個(gè)人體驗(yàn)和感受上,這才算是為自己的投資。要帶著給自己播下種子的意識(shí)使用金錢(qián)。給自己的投資有很多種類(lèi),學(xué)習(xí)就是其中之一。這種時(shí)候,千萬(wàn)不要吝嗇金錢(qián)。大家思考的都是“怎樣經(jīng)濟(jì)實(shí)惠地學(xué)習(xí)英語(yǔ)”,但真正要學(xué)習(xí)一件事,最快最直接的方式難道不該是毫不猶豫地花錢(qián)嗎?

祝春安,李木子,
第026日,以上。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 筆記轉(zhuǎn)載于GitHub項(xiàng)目:https://github.com/NLP-LOVE/Introduction-NL...
    mantch閱讀 1,335評(píng)論 0 4
  • 機(jī)器學(xué)習(xí)的核心思想就是根據(jù)已知的內(nèi)容去推測(cè)未知的內(nèi)容,然后在已知和未知之間建立起聯(lián)系,這個(gè)聯(lián)系就是機(jī)器學(xué)習(xí)中的各種...
    閃電隨筆閱讀 4,077評(píng)論 1 7
  • 一、隱含馬爾可夫模型(Hidden Markov Model) 1、簡(jiǎn)介 隱含馬爾可夫模型并不是俄羅斯數(shù)學(xué)家馬爾可...
    KBAC閱讀 736評(píng)論 0 3
  • 神經(jīng)網(wǎng)絡(luò) 原理 《機(jī)器學(xué)習(xí)》周志華 14.1 隱馬爾可夫模型 機(jī)器學(xué)習(xí)最重要的任務(wù),是根據(jù)一些已觀察到的證據(jù)(例如...
    hxiaom閱讀 1,587評(píng)論 0 1
  • 【好習(xí)慣打卡養(yǎng)成】 1. 早睡早起:老家太冷,回來(lái)前三天都是睡到7點(diǎn)多,今天恢復(fù)正常5點(diǎn)半自然醒。 2. 運(yùn)動(dòng):運(yùn)...
    吳彩萍linda閱讀 289評(píng)論 0 0

友情鏈接更多精彩內(nèi)容