python自然語言處理學(xué)習(xí)筆記(一)

一、語言計算:文本和單詞

1. NLTK簡介

NLTK 創(chuàng)建于 2001 年,最初是賓州大學(xué)計算機(jī)與信息科學(xué)系計算語言學(xué)課程的一部分。 從那以后,在數(shù)十名貢獻(xiàn)者的幫助下不斷發(fā)展壯大。如今,它已被幾十所大學(xué)的課程所采納, 并作為許多研究項目的基礎(chǔ)。

語言處理任務(wù)與相應(yīng)NLTK模塊以及功能描述

使用pip install nltk即可安裝成功。安裝完 NLTK之后,使用如下代碼來安裝《python自然語言處理》這本書所需要的數(shù)據(jù):

import nltk
nltk.download()
運行代碼后彈出的界面

查看和使用所下載的文本數(shù)據(jù):

2. 搜索文本

詞語索引視圖顯示一個指 定單詞的每一次出現(xiàn),連同一些上下文一起顯示。查看《白鯨記》中的詞 monstrous:

可以用.similar方法來識別文章中和搜索詞相似的詞語:

.common_contexts允許我們研究兩個或兩個以上的詞共同的上下文:

判斷詞在文本中的位置:從文本開頭算起在它前面有多少詞。這個位置信息 可以用離散圖表示。每一個豎線代表一個單詞,每一行代表整個文本:

3. 計數(shù)詞匯

使用len(text3)獲取文本中出現(xiàn)的詞和標(biāo)點符號為單位算出文本從頭到尾的長度。

set(text3)獲得 text3 的詞匯表,然后用 sorted()包裹起 Python 表達(dá)式 set(text3),得到一個詞匯項的排序表:

計數(shù)一個詞在文本中出現(xiàn)的次數(shù)和計算一個特定的詞在文本中占據(jù)的百分比:



二、近觀 Python:將文本當(dāng)做詞鏈表

這里就是介紹python的list和字符串,因為已經(jīng)學(xué)習(xí)過了,所以稍微看了下就跳過了。


三、計算語言:簡單的統(tǒng)計

1. 頻率分布

使用 FreqDist 尋找《白鯨記》中最常見的 50 個詞:

FreqDist::plot(n):該方法接受一個數(shù)字n,會繪制出現(xiàn)次數(shù)最多的前n項,在本例中即繪制高頻詞匯:

FreqDist::hapaxes(): 該方法會返回一個低頻項列表,低頻項即出現(xiàn)一次的項。

2. 細(xì)粒度的選擇詞

長高頻詞一般為文本的特征詞,我們可以看看文本中長度大于7個字符出現(xiàn)次數(shù)超過7次的詞:

3. 詞語搭配和雙連詞( bigrams)

一個搭配是經(jīng)常在一起出現(xiàn)的詞序列。 red wine 是一個搭配而 the wine 不是 。collocations()函數(shù)可以做這些:

4. NLTK頻率分布類中定義的函數(shù)


四、回到 Python:決策與控制

主要還是一些python的控制語句,略


五、自動理解自然語言

  • 詞意消歧
  • 指代消解
  • 自動生成語言
  • 機(jī)器翻譯
  • 人機(jī)對話系統(tǒng)
  • 文本含義識別

NLP 的局限性:盡管在很多如 RTE 這樣的任務(wù)中研究取得了進(jìn)展, 但在現(xiàn)實世界的應(yīng)用中已經(jīng)部署的語言理解系統(tǒng)仍不能進(jìn)行常識推理或以一種一般的可靠的方式描繪這個世界的知識。我們在 等待這些困難的人工智能問題得到解決的同時,接受一些在推理和知識能力上存在嚴(yán)重限制 的自然語言系統(tǒng)是有必要的。因此,從一開始,自然語言處理研究的一個重要目標(biāo)一直是使 用淺顯但強(qiáng)大的技術(shù)代替無邊無際的知識和推理能力,促進(jìn)構(gòu)建“ 語言理解”技術(shù)的艱巨任務(wù) 的不斷取得進(jìn)展。事實上,這是本書的目標(biāo)之一,我們希望你能掌握這些知識和技能,構(gòu)建 有效的自然語言處理系統(tǒng),并為構(gòu)建智能機(jī)器這一長期的理想做出貢獻(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容