在做本文分析時(shí),由于有較多的專用術(shù)語和名詞,在jieba詞庫是沒有的詞,需要添加自定義詞典,保證更高的正確率。
如果需要添加的專業(yè)詞數(shù)量不多,可以直接添加,例如:
jieba.add_word('蘇木素')
jieba.add_word('負(fù)壓液管')
也可以刪除jieba詞庫中的詞,例如
jieba.del_word('自定義詞')
如果需要添加的專業(yè)詞數(shù)量比較多,需要用自定義詞典
jieba.load_userdict(file_name) # file_name為自定義詞典的路徑
詞典格式和dict.txt一樣,一個(gè)詞占一行;每一行分三部分,一部分為詞語,另一部分為詞頻,最后為詞性(可省略),用空格隔開