【python學(xué)習(xí)手冊(cè)】02|使用Python提取中文關(guān)鍵詞?

【需求】
小陳同學(xué)想知道30篇文檔里,出現(xiàn)頻次最高的關(guān)鍵詞有哪些?
【環(huán)境】
Mac python3.6
用Anaconda配置的環(huán)境
【開始】
Step1

  • 安裝要用到的庫(kù):結(jié)巴分詞
pip install jieba

Step2

  • 終端里輸入
jupyter notebook
  • 打開jupyter (用完覺(jué)得可以一行一行執(zhí)行好適合初學(xué)者,可以發(fā)現(xiàn)哪里有bug,比sublime里寫完整體執(zhí)行再回去找bug要友善
    Step3
  • 準(zhǔn)備要分析的文本,這時(shí)候有個(gè)巨坑就是編碼問(wèn)題,之前直接在寫,就遇到了編碼問(wèn)題,也不知道怎么解決。
  • 因而,正確的使用中文文本數(shù)據(jù)方式,是你在Jupyter Notebook里面,新建一個(gè)文本文件。
  • 把文本復(fù)制進(jìn)去,修改文件名,按File里的保存,就可以返回上一個(gè)菜單。


  • 返回后,同樣新建一個(gè)python3文件,開始寫提取關(guān)鍵詞的代碼。


  • 用了2種方式提取關(guān)鍵詞,個(gè)人覺(jué)得第二種更準(zhǔn)確一些,代碼如下:


  • 如果你需要修改關(guān)鍵詞數(shù)量,就需要指定topK參數(shù)。例如你要輸出10個(gè)關(guān)鍵詞,可以這樣執(zhí)行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
    print('%s %s' % (keyword, weight))

【參考】
這篇是根據(jù)這篇教程 做的,感謝分享者,靠譜!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容