Jieba對龍族4的詞云嘗試

? ? ? ? ? ? ? ? ? ? ?Jieba對龍族4的詞云嘗試

1.前置條件

java環(huán)境和安裝jieba,即java -version 和pip install jieba,很簡單的大家應(yīng)該都知道的。

2.jieba嘗試

先在網(wǎng)上找一些教程,看看jieba的基本用法和操作,大家都知道啊就不說了,就說說我怎么嘗試的流程吧。

先把小說下載下來,命名為lz4.txt,然后對這個文本提取關(guān)鍵詞和詞頻統(tǒng)計操作,




txt文檔

得到的數(shù)據(jù)還是有很大問題的,首先主角名字就沒有被分成了路明和明飛,還有很多無意義的詞語,并不是我想要的結(jié)果,所以在jieba中添加中文詞語,和添加停用詞詞庫。

添加中文詞匯就是 jieba.add_word('楚子航') ,添加停用詞詞表就是stopwords_path = '路徑',我就在本地加了一個停用詞詞表,

停用詞詞庫

得到如下結(jié)果,

完善


結(jié)果

這個結(jié)果看起來還是令人滿意的,最后把這些數(shù)據(jù)整好看一點,就是把得到的數(shù)據(jù)整成詞云,就可以都到一張漂亮的詞云圖了。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容