自然語言處理NLP(一)

之前在寫小論文的時候,想著研究情感分析之類的東西,被導師否決了,原因是因為需要對數(shù)據(jù)進行自然語言分析處理,而難以應對語言中模糊語義以及歧義問題。

后來被要求研究網(wǎng)絡安全領域。

主攻學習貝葉斯網(wǎng)絡和隱馬爾可夫模型,這兩個都是出名的復雜的概率模型。

最近思考了很多關于學習方面的問題,也用隱馬爾可夫做了一些分詞方面的實驗,也嘗試了結(jié)巴分詞,聽說結(jié)巴分詞的底層是隱馬爾可夫模型完成的,感覺效果也還好。

那么這個時候,才是我萌生既然我主攻是概率模型,我應該好好地學習一下自然語言處理的東西。其一,因為自然語言處理是當前人工智能的熱門,其二,其中最難攻克的HMM之前我有過涉及,那么想必學起來應該不至于那么費勁。所以,我決定好好地看看NLP。

我選用的教材是統(tǒng)計自然語言處理基礎。

----緒論

自然語言處理要解決的問題不是去判斷一句話到底符合或不符合語法規(guī)則,而是語言中通常出現(xiàn)的形式是什么。

用來識別這些模式的主要工具是計數(shù),就是通常所說的統(tǒng)計方法。

研究的重點是應當去思考:語言表達的意思和語言書寫的形式之間的關系。也面臨著這樣的問題,應當選擇什么樣的先驗知識。

經(jīng)驗主義方法認為可以通過一個適當?shù)恼Z言模型學習復雜和廣泛的語言結(jié)構(gòu),通過把統(tǒng)計學、模式識別和機器學習的方法應用到大規(guī)模的語言使用的例子中,可以得到模型參數(shù)的數(shù)值。

通常,在統(tǒng)計自然語言處理中實際上不可能研究觀測到大規(guī)模的語言實例。所以人們簡單地使用文本當做替代,并把文本中的上下文關系作為現(xiàn)實世界中語言的上下文關系的替代品。我們把一個文本集合稱為語料庫(corpus),corpus是一個拉丁文簡稱,當有幾個這樣的文本集合的時候,我們稱之為語料庫集合。

我們在統(tǒng)計自然語言處理中的研究方法源自香農(nóng)的工作,研究目的是為語言事件指定概率,使我們可以說那些句子是經(jīng)常使用的和不經(jīng)常使用的。

語言學應當回答的基本兩個問題:

1. 人們說的話是什么?

2. 人們說/問/要求的事物相應于現(xiàn)實事件的什么?

把概率作為理解語言的一種科學方法的最基本論點認為,人類的認知是隨機的,因此語言也必須是隨機的,因為它是認知的一個完整部分。

在自然語言處理中的大部分現(xiàn)有工作都重點關注低層次的語法處理,但是人們有時也會提出這樣一個疑問,統(tǒng)計方法是否可以處理語言所表達的意思。回答是這要取決于對這個意思形式的定義,比如把英語翻譯成一種SQL語言。

-------語言中的歧義問題是自然語言難以處理的原因

也就是說當我們遇到了長一些的句子和復雜一些的語法的時候,歧義問題會導致分析結(jié)果成倍地增加。

因此,一個實用的自然語言處理系統(tǒng)必須具有良好的消除歧義功能,它主要解決詞義、詞類別、語法結(jié)構(gòu)和語義范疇等歧義問題。

但是,結(jié)果歧義最小和最大化語法的作用范圍這兩個目標對于自然語言處理系統(tǒng)是矛盾的,因此把語法的作用范圍擴大化會導致對于一般句子不正確的分析結(jié)果數(shù)量增加。進一步講,使用人工智能的方法進行語法分析和消除歧義。

依賴于手工創(chuàng)建規(guī)則和手工調(diào)整消除歧義的策略,產(chǎn)生了知識獲取的瓶頸問題,所以在自然語言文本的效果上很差。

----處理過程

NLP自動從語料庫里學習詞匯和結(jié)構(gòu)偏向性信息,以此來探尋解決上述問題。不再單獨使用語法的類,例如詞性,來進行句法分析。我們認為存在著大量詞匯之間的關系,也就是說一些單詞趨向于相互組成詞組?!菊f到這里,忍不住預留一下,寫一篇Word2vec的前世今生】這些搭配知識反映更為深入的是語義關系

而且使用統(tǒng)計模型可以很好地解決歧義問題:統(tǒng)計模型具有魯棒性和概括性,并且在含有錯誤的數(shù)據(jù)和新數(shù)據(jù)中性能優(yōu)異。

因此,統(tǒng)計自然語義處理引導產(chǎn)生了一種新的方法,可以在分析自然文本的大規(guī)模系統(tǒng)中成功地消除歧義問題。此外,參數(shù)通??梢詮恼Z料中自動估計出來。

-----資料

1. 詞匯

Brown語料庫--LOB語料庫是其英文復制版 ?[詞匯級別歧義消除]

Susanne語料庫 ?[標注了句子的句法結(jié)構(gòu)]

Penn樹庫 ?[大規(guī)模標注句法結(jié)構(gòu)]

2. 詞典

wordNet(詞網(wǎng))英語的電子詞典。詞匯被組織到一個網(wǎng)絡層次中。每個節(jié)點由相近意思的詞集組成。在詞匯之間還定義了一些其他的關系,例如分裂或部分-總體的關系。

3. 詞的計數(shù)

假設文本都被表示成為單詞序列。

首先有一些明顯的問題需要解決。文本中最常用的詞是什么?可以知道占統(tǒng)治地位的少數(shù)英語單詞具有重要的語法作用,并且它們

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容