中文分詞:
我的家鄉(xiāng)可以分為 我 的 家鄉(xiāng)
停用詞
數(shù)據(jù)處理,需要過來的詞語和子 如web,網(wǎng)址等 語氣助詞、副詞、介詞、連接詞等
通過jieba中文分詞包
import jieba;
for w in jieba.cut("我愛Python"):
print(w)
輸出為:
我
愛
Python
例如:
for w in jieba.cut("""
工信處女干事
每月經(jīng)過下屬科室都要親口交代
24口交換機等技術性器件的安裝工作
"""):
print(w)
輸出:
工信處
女干事
每月
經(jīng)過
下屬
科室
都
要
親口
交代
24
口
交換機
等
技術性
器件
的
安裝
工作
jieba包導入新的詞庫
jieba.load_userdict(
'D:\\PDM\\2.2\\金庸武功招式.txt'
);
中文分詞統(tǒng)計
第一步構建語料庫
import os;
import os.path;
import codecs;
filePaths = [];
fileContents = [];
for root, dirs, files in os.walk(
"D:\\PDM\\2.2\\SogouC.mini\\Sample"
):
for name in files:
filePath = os.path.join(root, name);
filePaths.append(filePath);
f = codecs.open(filePath, 'r', 'utf-8')
fileContent = f.read()
f.close()
fileContents.append(fileContent)
import pandas;
corpos = pandas.DataFrame({
'filePath': filePaths,
'fileContent': fileContents
});
第二步:通過jieba分詞統(tǒng)計
import jieba
segments = []
filePaths = []
for index, row in corpos.iterrows():
filePath = row['filePath']
fileContent = row['fileContent']
segs = jieba.cut(fileContent)
for seg in segs:
segments.append(seg)
filePaths.append(filePath)
segmentDataFrame = pandas.DataFrame({
'segment': segments,
'filePath': filePaths
});