篤行百天日志 - 026
人類(lèi)信息交流的發(fā)展貫穿了人類(lèi)的進(jìn)化和文明的全過(guò)程。而自然語(yǔ)言是人類(lèi)交流信息的工具,語(yǔ)言和通信的聯(lián)系是天然的。通信的本質(zhì)就是一個(gè)編解碼和傳輸?shù)倪^(guò)程。
1. 通信模型
讓我們先來(lái)看一個(gè)典型的通信系統(tǒng):當(dāng)一個(gè)人(或者機(jī)器)發(fā)送信息時(shí),他需要采用一種能在媒體中(比如空氣、電線(xiàn))傳播的信號(hào)。
- 比如語(yǔ)音或者電話(huà)線(xiàn)的調(diào)制信號(hào),這個(gè)過(guò)程是廣義上的編碼。
- 通過(guò)媒體傳播到接收方,這個(gè)過(guò)程是信道傳輸。
- 在接收方,收聽(tīng)的人(或者機(jī)器)根據(jù)事先約定好的方法,將這些信號(hào)還原成發(fā)送者的信息,這個(gè)過(guò)程是廣義上的解碼。
這樣,幾乎所有的自然語(yǔ)言處理問(wèn)題都可以等價(jià)成通信的解碼問(wèn)題。
2. 隱含馬爾可夫模型

隱含馬爾可夫模型( Hidden Markov Model)其實(shí)并不是19世紀(jì)俄羅斯數(shù)學(xué)家馬爾可夫( Andrey Markov)發(fā)明的,而是美國(guó)數(shù)學(xué)家鮑姆(LeonardE.Baum)等人在20世紀(jì)六七十年代發(fā)表的一系列論文中提出的。
到了19世紀(jì),概率論的發(fā)展從對(duì)(相對(duì)靜態(tài)的)隨機(jī)變量的研究發(fā)展到對(duì)隨機(jī)變量的時(shí)間序列x1,x2,x3,…,xtr…,即隨機(jī)過(guò)程(動(dòng)態(tài)的)的研究。這在哲學(xué)的意義上,是人類(lèi)認(rèn)識(shí)的一個(gè)飛躍。但是,隨機(jī)過(guò)程要比隨機(jī)變量復(fù)雜得多。
比如,對(duì)于天氣預(yù)報(bào),硬性假定今天的氣溫只與昨天有關(guān)而和前天無(wú)關(guān)。當(dāng)然這種假設(shè)未必適合所有的應(yīng)用,但是至少對(duì)以前很多不好解決的問(wèn)題給出了近似解。這個(gè)假設(shè)后來(lái)被命名為馬爾可夫假設(shè),而符合這個(gè)假設(shè)的隨機(jī)過(guò)程則稱(chēng)為馬爾可夫過(guò)程,也稱(chēng)為馬爾可夫鏈。
隱含馬爾可夫模型是上述馬爾可夫鏈的一個(gè)擴(kuò)展:任一時(shí)刻t的狀態(tài)yt是不可見(jiàn)的。所以觀察者沒(méi)法通過(guò)觀察到一個(gè)狀態(tài)序列y1,y2,y3,yT來(lái)推測(cè)轉(zhuǎn)移概率等參數(shù)。但是,隱含馬爾可夫模型在每個(gè)時(shí)刻t會(huì)輸出一個(gè)符號(hào)bt,而且bt和xt相關(guān)且僅和x相關(guān)。這個(gè)被稱(chēng)為獨(dú)立輸出假設(shè)。隱含馬爾可夫模型的結(jié)構(gòu)如下:其中隱含的狀態(tài)x1,x2,x3是一個(gè)典型的馬爾可夫鏈。這種模型被稱(chēng)為“隱含”馬爾可夫模型。
再舉一個(gè)經(jīng)典的例子:
一個(gè)東京的朋友每天根據(jù)天氣{下雨,天晴}決定當(dāng)天的活動(dòng){公園散步,購(gòu)物,清理房間}中的一種,我們每天只能在twitter上看到她發(fā)的推“啊,我前天公園散步、昨天購(gòu)物、今天清理房間了!”,那么我們可以根據(jù)她發(fā)的推特推斷東京這三天的天氣。在這個(gè)例子里,可觀察的輸出是活動(dòng),隱含狀態(tài)是天氣。
隱含馬爾可夫模型是一個(gè)并不復(fù)雜的數(shù)學(xué)模型,它成功地解決了復(fù)雜的語(yǔ)音識(shí)別、機(jī)器翻譯等問(wèn)題。當(dāng)我們看完這些復(fù)雜的問(wèn)題是如何通過(guò)簡(jiǎn)單的模型描述和解決時(shí),會(huì)不得不由衷地感嘆數(shù)學(xué)模型之妙。
100個(gè)基本之貳拾陸
常對(duì)自己投資。
為體驗(yàn)花錢(qián)。
不用貧窮的方法學(xué)習(xí)。
錢(qián)要用在豐富個(gè)人體驗(yàn)和感受上,這才算是為自己的投資。要帶著給自己播下種子的意識(shí)使用金錢(qián)。給自己的投資有很多種類(lèi),學(xué)習(xí)就是其中之一。這種時(shí)候,千萬(wàn)不要吝嗇金錢(qián)。大家思考的都是“怎樣經(jīng)濟(jì)實(shí)惠地學(xué)習(xí)英語(yǔ)”,但真正要學(xué)習(xí)一件事,最快最直接的方式難道不該是毫不猶豫地花錢(qián)嗎?
祝春安,李木子,
第026日,以上。