Python 詞頻統(tǒng)計-中文分詞

中文分詞:

我的家鄉(xiāng)可以分為 我 的 家鄉(xiāng)

停用詞

數(shù)據(jù)處理,需要過來的詞語和子 如web,網(wǎng)址等 語氣助詞、副詞、介詞、連接詞等

通過jieba中文分詞包

import jieba;

for w in jieba.cut("我愛Python"):

print(w)

輸出為:


Python


例如:

for w in jieba.cut("""

工信處女干事

每月經(jīng)過下屬科室都要親口交代

24口交換機等技術性器件的安裝工作

"""):

print(w)

輸出:

工信處

女干事

每月

經(jīng)過

下屬

科室

親口

交代

24

交換機

技術性

器件

安裝

工作


jieba包導入新的詞庫

jieba.load_userdict(

'D:\\PDM\\2.2\\金庸武功招式.txt'

);

中文分詞統(tǒng)計

第一步構建語料庫

import os;

import os.path;

import codecs;

filePaths = [];

fileContents = [];

for root, dirs, files in os.walk(

"D:\\PDM\\2.2\\SogouC.mini\\Sample"

):

for name in files:

filePath = os.path.join(root, name);

filePaths.append(filePath);

f = codecs.open(filePath, 'r', 'utf-8')

fileContent = f.read()

f.close()

fileContents.append(fileContent)

import pandas;

corpos = pandas.DataFrame({

'filePath': filePaths,

'fileContent': fileContents

});

第二步:通過jieba分詞統(tǒng)計

import jieba

segments = []

filePaths = []

for index, row in corpos.iterrows():

filePath = row['filePath']

fileContent = row['fileContent']

segs = jieba.cut(fileContent)

for seg in segs:

segments.append(seg)

filePaths.append(filePath)

segmentDataFrame = pandas.DataFrame({

'segment': segments,

'filePath': filePaths

});

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 以下內容都是在工作中的一些小實踐,代碼部分是參考網(wǎng)上的已有的然后再自行根據(jù)情況修改過的。記載主要是想以后用的時候可...
    H2016閱讀 2,972評論 0 7
  • 詞頻統(tǒng)計 - 語料庫的構建 遍歷路徑下的所有文件和子目錄 os.walk() 讀取目錄及其所有子目錄 root —...
    WesleyLien閱讀 1,870評論 0 3
  • 關鍵詞:windows平臺下jieba安裝、三種模式比較、自定義詞典、停用詞語料、詞頻統(tǒng)計、詞云生成 jieba簡...
    秋燈鎖憶閱讀 4,665評論 0 2
  • 黃昏搭起鵲橋 蟲鳴蠱惑著月光 灌木叢里暗藏 淺淺的風 粉粉的蝶 翻來,陳年的影像 尋到,一朵時光 總有些日子,淡淡...
    麗日生輝閱讀 445評論 7 8

友情鏈接更多精彩內容