本文首發(fā)于我的博客:gongyanli.com
前言:本文是一些關(guān)于jieba分詞的簡(jiǎn)單操作,把文檔進(jìn)行分詞后,然后利用wordcloud輸出。
一、安裝
pip install jieba
二、準(zhǔn)備數(shù)據(jù)
依然是維基百科文章保存為txt,地址https://zh.wikipedia.org/wiki/%E6%AC%A7%E9%98%B3%E4%BF%AE
下載文件simsun.ttf,如果沒有這個(gè)文件,生成的詞云將會(huì)是亂碼,不是中文。因?yàn)閣ordcloud默認(rèn)字體是英文,不包含中文編碼。
三、分詞
`import jieba # 導(dǎo)入jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud
filename = "ouyangxiu.txt"
with open(filename) as f:
mytext = f.read()
mytext=" ".join(jieba.cut(mytext)) # 進(jìn)行jieba分詞
wordcloud=WordCloud(font_path="simsun.ttf").generate(mytext)
# 中文分詞后再生成詞云,同時(shí)注意指定輸出字體simsun.ttf
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis("off")
plt.show()
# print(mytext)
`
四、出圖

image