自然語言處理 - 期末復(fù)習(xí)總結(jié)

第一章 緒論

第一章內(nèi)容主要是NLP中的各種概念及方法的介紹。

1.1 基本概念

  • 語言:語言是一個(gè)符號系統(tǒng),通常用一些記號(如漢字)來表示。
    • 語言是一個(gè)系統(tǒng),因?yàn)檎Z言能表達(dá)意義(知識),并且具有一定的規(guī)則(語法)。
    • 語言的第一系統(tǒng)是語音系統(tǒng),第二系統(tǒng)是文字系統(tǒng)。
    • 語言的單位有:字符、詞、短語、句子、語段或篇章。
  • 自然語言:人類獨(dú)有的、用任意創(chuàng)造出來的符號系統(tǒng)交流思想、表達(dá)感情和愿望的非本能方法。
    • 自然語言指人類使用的語言,如漢語、英語等。
  • 自然語言理解:通過建立形式化的數(shù)學(xué)模型來分析、處理自然語言,并在計(jì)算機(jī)上用程序來實(shí)現(xiàn)分析和處理(自然語言)的過程,從而達(dá)到以機(jī)器(計(jì)算機(jī))來模擬人的部分乃至全部語言能力的目的。
    • 與NLU密切相關(guān)的一門學(xué)科是計(jì)算語言學(xué)(Computational Linguistics),不過計(jì)算語言學(xué)更側(cè)重于研究自然語言的計(jì)算模型(數(shù)學(xué)模型)。
  • 自然語言處理:自然語言處理就是利用計(jì)算機(jī)為工具對人類特有的書面形式和口頭形式的自然語言的信息進(jìn)行各種類型處理和加工的技術(shù)。
    • 自然語言處理要研制表示語言能力和語言應(yīng)用(linguistic performance)的模型,建立計(jì)算框架來實(shí)現(xiàn)這樣的語言模型,提出相應(yīng)的方法來不斷地完善這樣的語言模型,根據(jù)這樣的語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評測技術(shù)。
    • 從微觀上講,指從自然語言到機(jī)器內(nèi)部之間的一種映射;從宏觀上講,指機(jī)器能夠執(zhí)行人類所期望的某些語言功能,包括問答系統(tǒng)、機(jī)器翻譯、從材料中獲取摘要等。

1.2 自然語言處理的研究內(nèi)容和面臨的困難

  • 自然語言處理的研究方向:機(jī)器翻譯、自動(dòng)文摘、信息檢索、文檔分類、問答系統(tǒng)、信息過濾、信息抽取、文本挖掘、輿情分析、隱喻計(jì)算、文字編輯和自動(dòng)校對、作文自動(dòng)評分、光讀字符識別、語音識別、文語轉(zhuǎn)換、說話人識別/認(rèn)證/驗(yàn)證。
  • 自然語言處理涉及的幾個(gè)層次:自然語言處理一般會(huì)涉及自然語言的形態(tài)學(xué)、語法學(xué)、語義學(xué)和語用學(xué)等幾個(gè)層次。
    • 形態(tài)學(xué)(詞法):研究詞的內(nèi)部結(jié)構(gòu),包括屈折變化和構(gòu)詞法兩個(gè)部分。(詞的不同形式對句法和語義的影響)
    • 語法學(xué):研究句子結(jié)構(gòu)成分之間的相互關(guān)系和組成句子序列的規(guī)則。(為什么一句話可以這么說,也可以那么說?)
    • 語義學(xué):研究如何從一個(gè)語句中詞的意義,以及這些詞在該語句中句法結(jié)構(gòu)中的作用來推導(dǎo)出該語句的意義。(這個(gè)語言單位到底說了什么?)
    • 語用學(xué):研究在不同上下文中的語句的應(yīng)用,以及上下文對語句理解所產(chǎn)生的影響。(為什么在特定的上下文中要說這句話?)
  • 自然語言處理面臨的困難:大量歧義現(xiàn)象和未知語言現(xiàn)象。
    • 歧義現(xiàn)象:自然語言中存在大量歧義現(xiàn)象,無論是在詞法、句法,還是在語義和語用層次。任何一個(gè)自然語言處理系統(tǒng),都無法回避歧義消解問題。
      • 詞法歧義:自動(dòng)化/研究所/取得/的/成就;自動(dòng)化/研究/所/取得/的/成就
      • 結(jié)構(gòu)歧義:今天中午吃<u>饅頭</u>;今天中午吃<u>食堂</u>
      • 語義歧義:她這個(gè)人真有<u>意思(funny)</u>;你們這么說是什么<u>意思(intention)</u>
      • 語音歧義:石室詩士施氏,嗜獅,誓食十獅
    • 未知語言現(xiàn)象:自然語言中存在未知的語言現(xiàn)象,包括新的詞匯(人名、地名、術(shù)語等)、新的含義、新的用法和語句結(jié)構(gòu)等。

1.3 自然語言處理的基本方法

目前自然語言處理的研究從大的角度可分為兩類方法:理性主義與經(jīng)驗(yàn)主義方法。

  • 理性主義方法:理性主義方法主張建立符號處理系統(tǒng),由人工整理和編寫初始的語言知識表示體系(規(guī)則),構(gòu)造相應(yīng)的推理程序,系統(tǒng)根據(jù)規(guī)則和程序,將自然語言理解為符號結(jié)構(gòu)。
    1. 詞法分析器按照人編寫的詞法規(guī)則對輸入句子的單詞進(jìn)行詞法分析
    2. 語法分析器根據(jù)人設(shè)計(jì)的語法規(guī)則對輸入句子進(jìn)行語法結(jié)構(gòu)分析
    3. 根據(jù)一套變換規(guī)則將語法規(guī)則映射到語義符號
  • 經(jīng)驗(yàn)主義方法:經(jīng)驗(yàn)主義方法主張通過建立特定的數(shù)學(xué)模型來學(xué)習(xí)復(fù)雜的、廣泛的語言結(jié)構(gòu),然后利用統(tǒng)計(jì)學(xué)、模式識別和機(jī)器學(xué)習(xí)等方法來訓(xùn)練模型的參數(shù),以擴(kuò)大語言使用的規(guī)模。
  • 理性主義與經(jīng)驗(yàn)主義方法的分歧
    1. 對語言知識來源的不同認(rèn)識
      • 理性主義:認(rèn)為人的很大一部分語言知識是與生俱來的。
      • 經(jīng)驗(yàn)主義:認(rèn)為人的語言知識是通過感觀輸入,經(jīng)過一些簡單的聯(lián)想與通用化(泛化)的操作而得到的。
    2. 研究對象的差異
      • 理性主義:研究人的語言知識結(jié)構(gòu)(語言能力),實(shí)際的語言數(shù)據(jù)(語言行為)只提供了這種內(nèi)在知識的間接證據(jù)。
      • 經(jīng)驗(yàn)主義:直接研究這些實(shí)際的語言數(shù)據(jù)。
    3. 運(yùn)用不同的理論
      • 理性主義:通?;贑homsky的語言原則,通過語言所必須遵守的一系列原則來描述語言。
      • 經(jīng)驗(yàn)主義:通常是基于Shannon的信息論、概率統(tǒng)計(jì)等。
    4. 采用不同的處理方法
      • 理性主義:通常通過一些特殊的語句或語言現(xiàn)象的研究來得到對人的語言能力的認(rèn)識,而這些語句和語言現(xiàn)象在實(shí)際的應(yīng)用中并不常見。
      • 經(jīng)驗(yàn)主義:偏重于對大規(guī)模語言數(shù)據(jù)中人們所實(shí)際使用的普通語句的統(tǒng)計(jì)。

第二章 形式語言與自動(dòng)機(jī)

第二章內(nèi)容主要是幾種喬姆斯基文法和自動(dòng)機(jī)以及它們之間的關(guān)系。

2.1 基本概念

  • :無向圖、有向圖、連通圖、回路
  • :無回路的連通無向圖
  • 森林:無回路的無向圖
  • 字符串:字符相連而成的有限序列
    • 兩種基本運(yùn)算:連接、閉包

2.2 形式語言

  • 描述一種語言的三種途徑
    • 窮舉法:把語言中所有句子枚舉出來。(只適用于句子數(shù)目有限的語言)
    • 文法描述:利用規(guī)則生成語言中合法的句子,語言中每個(gè)句子都用嚴(yán)格的規(guī)則來構(gòu)造。
      • 文法用來精確的描述語言和其結(jié)構(gòu)。
    • 自動(dòng)機(jī)法:給出識別該語言中句子的機(jī)械方法。
      • 自動(dòng)機(jī)用于機(jī)械地刻畫對輸入字符串的識別過程。
  • 形式文法:形式文法是一個(gè)四元組G=\langle V_T,V_N,S,P \rangle
    • V_T:終結(jié)符的有限集合(句子中實(shí)際出現(xiàn)的符號的集合,或單詞表)
    • V_N:非終結(jié)符的有限集合(在句子中不實(shí)際出現(xiàn),但在推導(dǎo)中起變量作用)
    • S:起始符(屬于非終結(jié)符)
    • P:一組重寫規(guī)則的有限集合(P=\{\alpha\to\beta\},其中\alpha\beta是由V=V_T \cap V_N中元素構(gòu)成的串,\alpha中至少含有一個(gè)非終結(jié)符)
  • 形式文法推導(dǎo):見《統(tǒng)計(jì)自然語言處理(第2版)》P36。
  • 喬姆斯基文法
    • 喬姆斯基3型文法(正則文法):文法G的規(guī)則集P中的所有規(guī)則均滿足A \to Bx,其中A,B \in V_Nx \in V_T。
    • 喬姆斯基2型文法(上下文無關(guān)文法):文法G的規(guī)則集P中的所有規(guī)則均滿足A \to \alpha,其中A \in V_N,\alpha是任意串,即\alpha \in (V_T \cup V_N)^{*}。
    • 喬姆斯基1型文法(上下文有關(guān)文法):文法G的規(guī)則集P中的所有規(guī)則均滿足\alpha A \beta \to \alpha\gamma\beta,其中\alpha、\beta\gamma是任意串且\gamma至少包含一個(gè)字符,即\alpha, \beta \in (V_T \cup V_N)^{*},\gamma \in (V_T \cup V_N)^{+}。
    • 喬姆斯基0型文法(無約束文法):文法G的規(guī)則集P中的所有規(guī)則均滿足\alpha \to \beta,其中\alpha、\beta是任意串且\beta至少包含一個(gè)字符,即\alpha \in (V_T \cup V_N)^{*}\beta \in (V_T \cup V_N)^{+}。
  • 范疇文法:見《范疇語法》(馮志偉)。
  • 用什么文法來描述自然語言?
    • 正則語法描述能力太弱、上下文有關(guān)語法計(jì)算復(fù)雜度太高,上下文無關(guān)語法使用最為普遍
    • 從描述能力上說,上下文無關(guān)語法不足以描述自然語言(自然語言中上下文相關(guān)的情況非常常見)
    • 從計(jì)算復(fù)雜度來說,上下文無關(guān)語法的復(fù)雜度是多項(xiàng)式的,其復(fù)雜度可以忍受
    • 為彌補(bǔ)上下文無關(guān)語法描述能力的不足,需要加上一些其他手段擴(kuò)充其描述能力

2.3 自動(dòng)機(jī)理論

文法、語言與自動(dòng)機(jī)之間的對應(yīng)關(guān)系:

文法類型 自動(dòng)機(jī) 語言 復(fù)雜度
0型 無約束文法 圖靈機(jī) 遞歸可枚舉語言 半可判定
1型 上下文有關(guān)文法 線性有界自動(dòng)機(jī) 上下文有關(guān)語言 NP完全
2型 上下文無關(guān)文法 下推自動(dòng)機(jī) 上下文無關(guān)語言 多項(xiàng)式
3型 正則文法 有限自動(dòng)機(jī) 正則語言 線形

詳見《統(tǒng)計(jì)自然語言處理(第2版)》P39。

第三章 句法分析

自頂向下分析法、自底向上分析法、轉(zhuǎn)移網(wǎng)絡(luò)文法、自頂向下線圖分析法

LR分析算法、GLR分析算法

詳見PPT上內(nèi)容

第四章 統(tǒng)計(jì)語言模型

包括N-gram、困惑度、數(shù)據(jù)平滑(加一平滑、減值法/折扣法、Good Turing、線性插值(Jelinek-Mercer)、回退式數(shù)據(jù)平滑(Katz))

4.1 n元語法

  • 語言模型:一般構(gòu)建為字符串s的概率分布p(s)
    • 與語言學(xué)中不同,語言模型與句子是否合乎語法沒有關(guān)系。
    • 對于一個(gè)由l個(gè)基元構(gòu)成的句子s=w_1 w_2 w_3 \cdots w_l,其概率計(jì)算公式可以表示為\begin{eqnarray*} p(s) &=& p(w_1)p(w_2|w_1)p(w_3|w_1 w_2) \cdots p(w_l|w_1 w_2 w_3 \cdots w_{l-1}) \\ &=& \prod_{i=1}^{l} p(w_i|w_1 \cdots w_{i-1}) \end{eqnarray*}
  • n元語法:按照語言模型的基本定義,模型參數(shù)數(shù)量較大,于是引入Markov假設(shè)(一個(gè)詞的出現(xiàn)僅與它之前的若干個(gè)詞有關(guān))。
    • n元文法模型相當(dāng)于n-1階Markov鏈(詞w_i的出現(xiàn)僅與其前面的n-1個(gè)詞有關(guān))。
    • n的取值不能太大,否則仍然會(huì)出現(xiàn)參數(shù)過多的問題(一般取n=3的情況較多)。
      • 更大的n:對下一個(gè)詞出現(xiàn)的約束性信息更多,更大的辨別力。
      • 更小的n:在訓(xùn)練語料庫中出現(xiàn)的次數(shù)更多,更可靠的統(tǒng)計(jì)結(jié)果,更高的可靠性。
    • 例子
      • 二元文法模型(Bi-gram)p(s) = \prod_{i=1}^{l} p(w_i|w_1 \cdots w_{i-1}) \approx \prod_{i=1}^{l} p(w_i|w_{i-1})
      • 三元文法模型(Tri-gram)p(s) = \prod_{i=1}^{l} p(w_i|w_1 \cdots w_{i-1}) \approx \prod_{i=1}^{l} p(w_i|w_{i-2} w_{i-1})
    • 詳見《統(tǒng)計(jì)自然語言處理(第2版)》P83-84。

4.2 語言模型性能評價(jià)

  • 交叉熵:衡量估計(jì)模型與真實(shí)概率分布之間的差異情況。
    • 先按照n-gram模型計(jì)算句子的概率p(s)
    • 對于句子(t_1,t_2, \cdots ,t_{l_t})構(gòu)成的測試集T,通過計(jì)算T中所有句子概率的乘積來計(jì)算測試集的概率p(T)=\prod_{i=1}^{l_T} p(t_i)
    • 測試集T上模型p(w_i|w_{i-n+1}^{i-1})的的交叉熵定義為H_p(T)=-\frac{1}{W_T}log_2p(T),其中W_T是以詞為度量單位的文本T的長度(可以包括句首詞<BOS>或句尾詞<EOS>)
  • 困惑度:測試集中每一個(gè)詞匯的概率的幾何平均值的倒數(shù)。(給測試集的句子賦予較高概率值的語言模型較好)
    • 與交叉熵的關(guān)系{PP}_T(T)=2^{H_P(T)}
  • 顯然,困惑度與交叉熵都是越小越好。詳見《統(tǒng)計(jì)自然語言處理(第2版)》P85-86。

4.3 數(shù)據(jù)平滑

  • 零概率問題:對于大量低頻詞,無論訓(xùn)練數(shù)據(jù)的規(guī)模如何擴(kuò)大,其出現(xiàn)頻度仍舊很低甚至根本不出現(xiàn)。如果采用最大似然估計(jì)(MLE)估算它們的概率分布,將出現(xiàn)大量的p(w_i|w_{i-n+1}^{i-1})=0,從而導(dǎo)致p(s)=0的情況,這種情況大大削弱了該模型的描述能力。
  • 數(shù)據(jù)平滑的基本思想:平滑處理的基本思想是“劫富濟(jì)貧”,即提高低概率(如零概率),降低高概率,盡量使概率分布趨于均勻。
  • 加法平滑:假設(shè)每一個(gè)n元語法出現(xiàn)的次數(shù)比實(shí)際出現(xiàn)的次數(shù)多\delta次,且0 \leq \delta \leq 1。p_{add}(w_i | w_{i-n+1}^{i-1}) = \frac{\delta+c(w_{i-n+1}^{i-1})}{\delta |V|+\sum_{w_i}c(w_{i-n+1}^{i-1})}
    • 當(dāng)\delta=1的時(shí)候就是加1平滑
  • Good-Turing估計(jì)法:對于任意一個(gè)出現(xiàn)r次的n元語法,假設(shè)它出現(xiàn)了r^*=(r+1)\frac{n_{r+1}}{n_r}次,其中n_r是恰好出現(xiàn)r次的n元語法的數(shù)目。
    • 對于統(tǒng)計(jì)數(shù)為r的n元語法,其概率為p_r=\frac{r^*}{N},其中N=\sum_{r=0}^{\infty}n_rr^*=\sum_{r=0}^{\infty}(r+1)n_{r+1}=\sum_{r=1}^{\infty}n_rr
  • 回退數(shù)據(jù)平滑:當(dāng)頻次大于某一數(shù)值k時(shí),運(yùn)用最大似然估計(jì)法;當(dāng)事件頻次小于k時(shí),使用低階的語法模型作為代替高階語法模型的后備。
    • 回退數(shù)據(jù)平滑
  • 減值法:修改訓(xùn)練樣本中事件的實(shí)際計(jì)數(shù),使樣本中(實(shí)際出現(xiàn)的)不同事件的概率之和小于1,剩余的概率量分配給未見概率。
  • 線性插值法:用低階的n元模型向高階n元模型插值進(jìn)行線性插值。
    • 線性插值法

第五章 特征與擴(kuò)充文法

未完。。。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容