第一章 緒論
第一章內(nèi)容主要是NLP中的各種概念及方法的介紹。
1.1 基本概念
-
語言:語言是一個(gè)符號系統(tǒng),通常用一些記號(如漢字)來表示。
- 語言是一個(gè)系統(tǒng),因?yàn)檎Z言能表達(dá)意義(知識),并且具有一定的規(guī)則(語法)。
- 語言的第一系統(tǒng)是語音系統(tǒng),第二系統(tǒng)是文字系統(tǒng)。
- 語言的單位有:字符、詞、短語、句子、語段或篇章。
-
自然語言:人類獨(dú)有的、用任意創(chuàng)造出來的符號系統(tǒng)交流思想、表達(dá)感情和愿望的非本能方法。
- 自然語言指人類使用的語言,如漢語、英語等。
-
自然語言理解:通過建立形式化的數(shù)學(xué)模型來分析、處理自然語言,并在計(jì)算機(jī)上用程序來實(shí)現(xiàn)分析和處理(自然語言)的過程,從而達(dá)到以機(jī)器(計(jì)算機(jī))來模擬人的部分乃至全部語言能力的目的。
- 與NLU密切相關(guān)的一門學(xué)科是計(jì)算語言學(xué)(Computational Linguistics),不過計(jì)算語言學(xué)更側(cè)重于研究自然語言的計(jì)算模型(數(shù)學(xué)模型)。
-
自然語言處理:自然語言處理就是利用計(jì)算機(jī)為工具對人類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類型處理和加工的技術(shù)。
- 自然語言處理要研制表示語言能力和語言應(yīng)用(linguistic performance)的模型,建立計(jì)算框架來實(shí)現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評測技術(shù)。
- 從微觀上講,指從自然語言到機(jī)器內(nèi)部之間的一種映射;從宏觀上講,指機(jī)器能夠執(zhí)行人類所期望的某些語言功能,包括問答系統(tǒng)、機(jī)器翻譯、從材料中獲取摘要等。
1.2 自然語言處理的研究內(nèi)容和面臨的困難
- 自然語言處理的研究方向:機(jī)器翻譯、自動(dòng)文摘、信息檢索、文檔分類、問答系統(tǒng)、信息過濾、信息抽取、文本挖掘、輿情分析、隱喻計(jì)算、文字編輯和自動(dòng)校對、作文自動(dòng)評分、光讀字符識別、語音識別、文語轉(zhuǎn)換、說話人識別/認(rèn)證/驗(yàn)證。
-
自然語言處理涉及的幾個(gè)層次:自然語言處理一般會(huì)涉及自然語言的形態(tài)學(xué)、語法學(xué)、語義學(xué)和語用學(xué)等幾個(gè)層次。
- 形態(tài)學(xué)(詞法):研究詞的內(nèi)部結(jié)構(gòu),包括屈折變化和構(gòu)詞法兩個(gè)部分。(詞的不同形式對句法和語義的影響)
- 語法學(xué):研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子序列的規(guī)則。(為什么一句話可以這么說,也可以那么說?)
- 語義學(xué):研究如何從一個(gè)語句中詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義。(這個(gè)語言單位到底說了什么?)
- 語用學(xué):研究在不同上下文中的語句的應(yīng)用,以及上下文對語句理解所產(chǎn)生的影響。(為什么在特定的上下文中要說這句話?)
-
自然語言處理面臨的困難:大量歧義現(xiàn)象和未知語言現(xiàn)象。
-
歧義現(xiàn)象:自然語言中存在大量歧義現(xiàn)象,無論是在詞法、句法,還是在語義和語用層次。任何一個(gè)自然語言處理系統(tǒng),都無法回避歧義消解問題。
- 詞法歧義:自動(dòng)化/研究所/取得/的/成就;自動(dòng)化/研究/所/取得/的/成就
- 結(jié)構(gòu)歧義:今天中午吃<u>饅頭</u>;今天中午吃<u>食堂</u>
- 語義歧義:她這個(gè)人真有<u>意思(funny)</u>;你們這么說是什么<u>意思(intention)</u>
- 語音歧義:石室詩士施氏,嗜獅,誓食十獅
- 未知語言現(xiàn)象:自然語言中存在未知的語言現(xiàn)象,包括新的詞匯(人名、地名、術(shù)語等)、新的含義、新的用法和語句結(jié)構(gòu)等。
-
歧義現(xiàn)象:自然語言中存在大量歧義現(xiàn)象,無論是在詞法、句法,還是在語義和語用層次。任何一個(gè)自然語言處理系統(tǒng),都無法回避歧義消解問題。
1.3 自然語言處理的基本方法
目前自然語言處理的研究從大的角度可分為兩類方法:理性主義與經(jīng)驗(yàn)主義方法。
-
理性主義方法:理性主義方法主張建立符號處理系統(tǒng),由人工整理和編寫初始的語言知識表示體系(規(guī)則),構(gòu)造相應(yīng)的推理程序,系統(tǒng)根據(jù)規(guī)則和程序,將自然語言理解為符號結(jié)構(gòu)。
- 詞法分析器按照人編寫的詞法規(guī)則對輸入句子的單詞進(jìn)行詞法分析
- 語法分析器根據(jù)人設(shè)計(jì)的語法規(guī)則對輸入句子進(jìn)行語法結(jié)構(gòu)分析
- 根據(jù)一套變換規(guī)則將語法規(guī)則映射到語義符號
- 經(jīng)驗(yàn)主義方法:經(jīng)驗(yàn)主義方法主張通過建立特定的數(shù)學(xué)模型來學(xué)習(xí)復(fù)雜的、廣泛的語言結(jié)構(gòu),然后利用統(tǒng)計(jì)學(xué)、模式識別和機(jī)器學(xué)習(xí)等方法來訓(xùn)練模型的參數(shù),以擴(kuò)大語言使用的規(guī)模。
-
理性主義與經(jīng)驗(yàn)主義方法的分歧:
- 對語言知識來源的不同認(rèn)識
- 理性主義:認(rèn)為人的很大一部分語言知識是與生俱來的。
- 經(jīng)驗(yàn)主義:認(rèn)為人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想與通用化(泛化)的操作而得到的。
- 研究對象的差異
- 理性主義:研究人的語言知識結(jié)構(gòu)(語言能力),實(shí)際的語言數(shù)據(jù)(語言行為)只提供了這種內(nèi)在知識的間接證據(jù)。
- 經(jīng)驗(yàn)主義:直接研究這些實(shí)際的語言數(shù)據(jù)。
- 運(yùn)用不同的理論
- 理性主義:通?;贑homsky的語言原則,通過語言所必須遵守的一系列原則來描述語言。
- 經(jīng)驗(yàn)主義:通常是基于Shannon的信息論、概率統(tǒng)計(jì)等。
- 采用不同的處理方法
- 理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認(rèn)識,而這些語句和語言現(xiàn)象在實(shí)際的應(yīng)用中并不常見。
- 經(jīng)驗(yàn)主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實(shí)際使用的普通語句的統(tǒng)計(jì)。
- 對語言知識來源的不同認(rèn)識
第二章 形式語言與自動(dòng)機(jī)
第二章內(nèi)容主要是幾種喬姆斯基文法和自動(dòng)機(jī)以及它們之間的關(guān)系。
2.1 基本概念
- 圖:無向圖、有向圖、連通圖、回路
- 樹:無回路的連通無向圖
- 森林:無回路的無向圖
-
字符串:字符相連而成的有限序列
- 兩種基本運(yùn)算:連接、閉包
2.2 形式語言
-
描述一種語言的三種途徑:
- 窮舉法:把語言中所有句子枚舉出來。(只適用于句子數(shù)目有限的語言)
-
文法描述:利用規(guī)則生成語言中合法的句子,語言中每個(gè)句子都用嚴(yán)格的規(guī)則來構(gòu)造。
- 文法用來精確的描述語言和其結(jié)構(gòu)。
-
自動(dòng)機(jī)法:給出識別該語言中句子的機(jī)械方法。
- 自動(dòng)機(jī)用于機(jī)械地刻畫對輸入字符串的識別過程。
-
形式文法:形式文法是一個(gè)四元組
。
-
:終結(jié)符的有限集合(句子中實(shí)際出現(xiàn)的符號的集合,或單詞表)
-
:非終結(jié)符的有限集合(在句子中不實(shí)際出現(xiàn),但在推導(dǎo)中起變量作用)
-
:起始符(屬于非終結(jié)符)
-
:一組重寫規(guī)則的有限集合(
,其中
和
是由
中元素構(gòu)成的串,
中至少含有一個(gè)非終結(jié)符)
-
- 形式文法推導(dǎo):見《統(tǒng)計(jì)自然語言處理(第2版)》P36。
-
喬姆斯基文法:
-
喬姆斯基3型文法(正則文法):文法
的規(guī)則集
中的所有規(guī)則均滿足
,其中
,
。
-
喬姆斯基2型文法(上下文無關(guān)文法):文法
的規(guī)則集
中的所有規(guī)則均滿足
,其中
,
是任意串,即
。
-
喬姆斯基1型文法(上下文有關(guān)文法):文法
的規(guī)則集
中的所有規(guī)則均滿足
,其中
、
和
是任意串且
至少包含一個(gè)字符,即
,
。
-
喬姆斯基0型文法(無約束文法):文法
的規(guī)則集
中的所有規(guī)則均滿足
,其中
、
是任意串且
至少包含一個(gè)字符,即
,
。
-
喬姆斯基3型文法(正則文法):文法
- 范疇文法:見《范疇語法》(馮志偉)。
-
用什么文法來描述自然語言?
- 正則語法描述能力太弱、上下文有關(guān)語法計(jì)算復(fù)雜度太高,上下文無關(guān)語法使用最為普遍
- 從描述能力上說,上下文無關(guān)語法不足以描述自然語言(自然語言中上下文相關(guān)的情況非常常見)
- 從計(jì)算復(fù)雜度來說,上下文無關(guān)語法的復(fù)雜度是多項(xiàng)式的,其復(fù)雜度可以忍受
- 為彌補(bǔ)上下文無關(guān)語法描述能力的不足,需要加上一些其他手段擴(kuò)充其描述能力
2.3 自動(dòng)機(jī)理論
文法、語言與自動(dòng)機(jī)之間的對應(yīng)關(guān)系:
| 文法類型 | 自動(dòng)機(jī) | 語言 | 復(fù)雜度 | |
|---|---|---|---|---|
| 0型 | 無約束文法 | 圖靈機(jī) | 遞歸可枚舉語言 | 半可判定 |
| 1型 | 上下文有關(guān)文法 | 線性有界自動(dòng)機(jī) | 上下文有關(guān)語言 | NP完全 |
| 2型 | 上下文無關(guān)文法 | 下推自動(dòng)機(jī) | 上下文無關(guān)語言 | 多項(xiàng)式 |
| 3型 | 正則文法 | 有限自動(dòng)機(jī) | 正則語言 | 線形 |
詳見《統(tǒng)計(jì)自然語言處理(第2版)》P39。
第三章 句法分析
自頂向下分析法、自底向上分析法、轉(zhuǎn)移網(wǎng)絡(luò)文法、自頂向下線圖分析法
LR分析算法、GLR分析算法
詳見PPT上內(nèi)容
第四章 統(tǒng)計(jì)語言模型
包括N-gram、困惑度、數(shù)據(jù)平滑(加一平滑、減值法/折扣法、Good Turing、線性插值(Jelinek-Mercer)、回退式數(shù)據(jù)平滑(Katz))
4.1 n元語法
-
語言模型:一般構(gòu)建為字符串
的概率分布
。
- 與語言學(xué)中不同,語言模型與句子是否合乎語法沒有關(guān)系。
- 對于一個(gè)由
個(gè)基元構(gòu)成的句子
,其概率計(jì)算公式可以表示為
-
n元語法:按照語言模型的基本定義,模型參數(shù)數(shù)量較大,于是引入Markov假設(shè)(一個(gè)詞的出現(xiàn)僅與它之前的若干個(gè)詞有關(guān))。
- n元文法模型相當(dāng)于n-1階Markov鏈(詞
的出現(xiàn)僅與其前面的n-1個(gè)詞有關(guān))。
- n的取值不能太大,否則仍然會(huì)出現(xiàn)參數(shù)過多的問題(一般取n=3的情況較多)。
- 更大的n:對下一個(gè)詞出現(xiàn)的約束性信息更多,更大的辨別力。
- 更小的n:在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計(jì)結(jié)果,更高的可靠性。
-
例子:
-
二元文法模型(Bi-gram):
-
三元文法模型(Tri-gram):
-
二元文法模型(Bi-gram):
- 詳見《統(tǒng)計(jì)自然語言處理(第2版)》P83-84。
- n元文法模型相當(dāng)于n-1階Markov鏈(詞
4.2 語言模型性能評價(jià)
-
交叉熵:衡量估計(jì)模型與真實(shí)概率分布之間的差異情況。
- 先按照n-gram模型計(jì)算句子的概率
- 對于句子
構(gòu)成的測試集
,通過計(jì)算
中所有句子概率的乘積來計(jì)算測試集的概率
- 測試集
上模型
的的交叉熵定義為
,其中
是以詞為度量單位的文本
的長度(可以包括句首詞<BOS>或句尾詞<EOS>)
- 先按照n-gram模型計(jì)算句子的概率
-
困惑度:測試集中每一個(gè)詞匯的概率的幾何平均值的倒數(shù)。(給測試集的句子賦予較高概率值的語言模型較好)
- 與交叉熵的關(guān)系
- 與交叉熵的關(guān)系
- 顯然,困惑度與交叉熵都是越小越好。詳見《統(tǒng)計(jì)自然語言處理(第2版)》P85-86。
4.3 數(shù)據(jù)平滑
-
零概率問題:對于大量低頻詞,無論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用最大似然估計(jì)(MLE)估算它們的概率分布,將出現(xiàn)大量的
,從而導(dǎo)致
的情況,這種情況大大削弱了該模型的描述能力。
- 數(shù)據(jù)平滑的基本思想:平滑處理的基本思想是“劫富濟(jì)貧”,即提高低概率(如零概率),降低高概率,盡量使概率分布趨于均勻。
-
加法平滑:假設(shè)每一個(gè)n元語法出現(xiàn)的次數(shù)比實(shí)際出現(xiàn)的次數(shù)多
次,且
。
- 當(dāng)
的時(shí)候就是加1平滑
- 當(dāng)
-
Good-Turing估計(jì)法:對于任意一個(gè)出現(xiàn)
次的n元語法,假設(shè)它出現(xiàn)了
次,其中
是恰好出現(xiàn)
次的n元語法的數(shù)目。
- 對于統(tǒng)計(jì)數(shù)為
的n元語法,其概率為
,其中
- 對于統(tǒng)計(jì)數(shù)為
-
回退數(shù)據(jù)平滑:當(dāng)頻次大于某一數(shù)值
時(shí),運(yùn)用最大似然估計(jì)法;當(dāng)事件頻次小于
時(shí),使用低階的語法模型作為代替高階語法模型的后備。
- 回退數(shù)據(jù)平滑
- 減值法:修改訓(xùn)練樣本中事件的實(shí)際計(jì)數(shù),使樣本中(實(shí)際出現(xiàn)的)不同事件的概率之和小于1,剩余的概率量分配給未見概率。
-
線性插值法:用低階的n元模型向高階n元模型插值進(jìn)行線性插值。
- 線性插值法
第五章 特征與擴(kuò)充文法
未完。。。

