1.安裝jieba分詞
pip install jieba #有可能會報錯,使用清華源沒有報錯
2.切詞的方法:jieba.cut() 和 jieba.cut_for_search()
2.1 jieba.cut()
第一個參數(shù): 需要分詞的字符串。
第二個參數(shù): cut_all 控制切詞的模式。
切詞模式:
精確模式:試圖將句子最精確地切開,適合文本分析;
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義問題;
第三個參數(shù):HMM 參數(shù)用來控制是否使用 HMM 模型
2.2 jieba.cut_for_search()
搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。
以上兩種方式切詞,返回的結(jié)果是一個可迭代的generator對象,可以進行遍歷或者轉(zhuǎn)換為列表進行處理。 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
3.添加自定義詞典:jieba.load_userdict()
參數(shù)詞典文件路徑的字符串,文件格式為utf-8
詞典的每行格式分為三個部分(之間用空格隔開):
第一部分:詞語
第二部分:詞頻(也可能是權(quán)重)
第三部分:詞性 (可忽略不寫)
4.關(guān)鍵詞提取:jieba.analyse.extract_tags()
4.1關(guān)鍵詞提取
先from jieba import anallyse
jieba.analyse.extract_tags(sentence, topK = 20, withWeight = False, allowPOS = ())
參數(shù)一:sentence,為提取文本
參數(shù)二:topK 返回幾個 TF/IDF 權(quán)重最大的關(guān)鍵詞,默認值為20。
參數(shù)三:withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認值為False。
參數(shù)四:allowPOS:僅包括指定詞性的詞,默認值為空,即不進行篩選。
參數(shù)五:jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 實例,idf_path 為 IDF 頻率文件。
4.2 關(guān)鍵詞提取停用詞
關(guān)鍵詞提取所使用停用詞(Stop Words)文本語料庫可以切換成自定義語料庫的路徑。
jieba.analyse.set_stop_words(file_name) #file_name為自定義語料庫的路徑
5.調(diào)整詞典:add_word()、del_word()和suggest_freq()
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中動態(tài)修改詞典.
使用 suggest_freq(segment, tune=True) 可調(diào)節(jié)單個詞語的詞頻,使其能(或不能)被分出來。
注意:自動計算的詞頻在使用 HMM 新詞發(fā)現(xiàn)功能時可能無效。
6.并行分詞(多進程分詞)
基于python的multipprocessing模塊,目前不支持windows。
jieba.enable_parallel(4) # 開啟并行分詞模式,參數(shù)為并行進程數(shù)。
jieba.disable_parallel() # 關(guān)閉并行分詞模式。
注: 本人水平有限, 如有錯誤歡迎提出指正!如有引用, 請注明出處!!