Python--利用結(jié)巴進(jìn)行分詞

本文首發(fā)于我的博客:gongyanli.com

前言:本文是一些關(guān)于jieba分詞的簡(jiǎn)單操作,把文檔進(jìn)行分詞后,然后利用wordcloud輸出。

一、安裝

pip install jieba

二、準(zhǔn)備數(shù)據(jù)

依然是維基百科文章保存為txt,地址https://zh.wikipedia.org/wiki/%E6%AC%A7%E9%98%B3%E4%BF%AE
下載文件simsun.ttf,如果沒有這個(gè)文件,生成的詞云將會(huì)是亂碼,不是中文。因?yàn)閣ordcloud默認(rèn)字體是英文,不包含中文編碼。

三、分詞

`import jieba  # 導(dǎo)入jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud

filename = "ouyangxiu.txt"
with open(filename) as f:
    mytext = f.read()
    mytext=" ".join(jieba.cut(mytext))  # 進(jìn)行jieba分詞
    wordcloud=WordCloud(font_path="simsun.ttf").generate(mytext) 
    # 中文分詞后再生成詞云,同時(shí)注意指定輸出字體simsun.ttf
    plt.imshow(wordcloud,interpolation='bilinear')
    plt.axis("off")
    plt.show()
# print(mytext)

`

四、出圖

image
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容