【需求】
小陳同學(xué)想知道30篇文檔里,出現(xiàn)頻次最高的關(guān)鍵詞有哪些?
【環(huán)境】
Mac python3.6
用Anaconda配置的環(huán)境
【開始】
Step1
- 安裝要用到的庫(kù):結(jié)巴分詞
pip install jieba
Step2
- 終端里輸入
jupyter notebook
- 打開jupyter (用完覺(jué)得可以一行一行執(zhí)行好適合初學(xué)者,可以發(fā)現(xiàn)哪里有bug,比sublime里寫完整體執(zhí)行再回去找bug要友善
Step3 - 準(zhǔn)備要分析的文本,這時(shí)候有個(gè)巨坑就是編碼問(wèn)題,之前直接在寫,就遇到了編碼問(wèn)題,也不知道怎么解決。
- 因而,正確的使用中文文本數(shù)據(jù)方式,是你在Jupyter Notebook里面,新建一個(gè)文本文件。

-
把文本復(fù)制進(jìn)去,修改文件名,按File里的保存,就可以返回上一個(gè)菜單。
-
返回后,同樣新建一個(gè)python3文件,開始寫提取關(guān)鍵詞的代碼。
-
用了2種方式提取關(guān)鍵詞,個(gè)人覺(jué)得第二種更準(zhǔn)確一些,代碼如下:
- 如果你需要修改關(guān)鍵詞數(shù)量,就需要指定topK參數(shù)。例如你要輸出10個(gè)關(guān)鍵詞,可以這樣執(zhí)行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
print('%s %s' % (keyword, weight))
【參考】
這篇是根據(jù)這篇教程 做的,感謝分享者,靠譜!


