? ? ? ? ? ? ? ? ? ? ?Jieba對龍族4的詞云嘗試
1.前置條件
java環(huán)境和安裝jieba,即java -version 和pip install jieba,很簡單的大家應(yīng)該都知道的。
2.jieba嘗試
先在網(wǎng)上找一些教程,看看jieba的基本用法和操作,大家都知道啊就不說了,就說說我怎么嘗試的流程吧。
先把小說下載下來,命名為lz4.txt,然后對這個文本提取關(guān)鍵詞和詞頻統(tǒng)計操作,


txt文檔
得到的數(shù)據(jù)還是有很大問題的,首先主角名字就沒有被分成了路明和明飛,還有很多無意義的詞語,并不是我想要的結(jié)果,所以在jieba中添加中文詞語,和添加停用詞詞庫。
添加中文詞匯就是 jieba.add_word('楚子航') ,添加停用詞詞表就是stopwords_path = '路徑',我就在本地加了一個停用詞詞表,

停用詞詞庫
得到如下結(jié)果,

完善

結(jié)果
這個結(jié)果看起來還是令人滿意的,最后把這些數(shù)據(jù)整好看一點,就是把得到的數(shù)據(jù)整成詞云,就可以都到一張漂亮的詞云圖了。
