色情视频亚洲天堂,98色视频,国产在线一区二区

中文分詞：

我的家鄉(xiāng)可以分為我的家鄉(xiāng)

停用詞

數(shù)據(jù)處理，需要過來的詞語和子如web，網(wǎng)址等語氣助詞、副詞、介詞、連接詞等

通過jieba中文分詞包

import jieba;

for w in jieba.cut("我愛Python"):

print(w)

輸出為：

我

愛

Python

例如：

for w in jieba.cut("""

工信處女干事

每月經(jīng)過下屬科室都要親口交代

24口交換機等技術性器件的安裝工作

"""):

print(w)

輸出：

工信處

女干事

每月

經(jīng)過

下屬

科室

都

要

親口

交代

口

交換機

等

技術性

器件

的

安裝

工作

jieba包導入新的詞庫

jieba.load_userdict(

'D:\\PDM\\2.2\\金庸武功招式.txt'

);

中文分詞統(tǒng)計

第一步構建語料庫

import os;

import os.path;

import codecs;

filePaths = [];

fileContents = [];

for root, dirs, files in os.walk(

"D:\\PDM\\2.2\\SogouC.mini\\Sample"

for name in files:

filePath = os.path.join(root, name);

filePaths.append(filePath);

f = codecs.open(filePath, 'r', 'utf-8')

fileContent = f.read()

f.close()

fileContents.append(fileContent)

import pandas;

corpos = pandas.DataFrame({

'filePath': filePaths,

'fileContent': fileContents

});

第二步：通過jieba分詞統(tǒng)計

import jieba

segments = []

filePaths = []

for index, row in corpos.iterrows():

filePath = row['filePath']

fileContent = row['fileContent']

segs = jieba.cut(fileContent)

for seg in segs:

segments.append(seg)

filePaths.append(filePath)

segmentDataFrame = pandas.DataFrame({

'segment': segments,

'filePath': filePaths

});

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python 詞頻統(tǒng)計-中文分詞

Python 詞頻統(tǒng)計-中文分詞

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Python 詞頻統(tǒng)計-中文分詞

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av