文本分析-自定義詞典

在做本文分析時(shí),由于有較多的專用術(shù)語和名詞,在jieba詞庫是沒有的詞,需要添加自定義詞典,保證更高的正確率。

如果需要添加的專業(yè)詞數(shù)量不多,可以直接添加,例如:
jieba.add_word('蘇木素')
jieba.add_word('負(fù)壓液管')
也可以刪除jieba詞庫中的詞,例如
jieba.del_word('自定義詞')

如果需要添加的專業(yè)詞數(shù)量比較多,需要用自定義詞典
jieba.load_userdict(file_name) # file_name為自定義詞典的路徑
詞典格式和dict.txt一樣,一個(gè)詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最后為詞性(可省略),用空格隔開

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 在接下來的分詞練習(xí)中將使用到四川大學(xué)公共管理學(xué)院的一篇新聞進(jìn)行練習(xí),文本如下: 為貫徹落實(shí)黨的十九大精神,不斷提升...
    nicokani閱讀 1,367評(píng)論 0 4
  • 參考:Python 中文分詞組件 jiabaPython中文分詞 jieba 十五分鐘入門與進(jìn)階jieba完整文檔...
    領(lǐng)悟悟悟閱讀 4,499評(píng)論 1 1
  • 注:參考文檔 一、在線詞云圖工具# (1)、使用### 在正式使用jieba分詞之前,首先嘗試用在線分詞工具來將自...
    DearIreneLi閱讀 6,369評(píng)論 1 8
  • 0 引言 ??jieba 是目前最好的 Python 中文分詞組件,它主要有以下 3 種特性: 支持 3 種分詞模...
    Gaius_Yao閱讀 119,108評(píng)論 3 82
  • 《怦然心動(dòng)》,美國電影,類型:愛情,喜劇。 如果單單是從愛情的角度來看這部電影,并沒有太多的新意,無非是“一見鐘情...
    婺源王學(xué)雄閱讀 285評(píng)論 0 1

友情鏈接更多精彩內(nèi)容