Python jieba分詞

1.安裝jieba分詞

pip install jieba    #有可能會報錯,使用清華源沒有報錯

2.切詞的方法:jieba.cut() 和 jieba.cut_for_search()

2.1 jieba.cut()
第一個參數(shù): 需要分詞的字符串。
第二個參數(shù): cut_all 控制切詞的模式。
    切詞模式:
       精確模式:試圖將句子最精確地切開,適合文本分析;
       全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義問題;
第三個參數(shù):HMM 參數(shù)用來控制是否使用 HMM 模型
2.2 jieba.cut_for_search()
搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分,提高召回率,適合用于搜索引擎分詞。

以上兩種方式切詞,返回的結(jié)果是一個可迭代的generator對象,可以進行遍歷或者轉(zhuǎn)換為列表進行處理。 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

3.添加自定義詞典:jieba.load_userdict()

參數(shù)詞典文件路徑的字符串,文件格式為utf-8

詞典的每行格式分為三個部分(之間用空格隔開):
        第一部分:詞語
        第二部分:詞頻(也可能是權(quán)重)
        第三部分:詞性 (可忽略不寫)

4.關(guān)鍵詞提取:jieba.analyse.extract_tags()

4.1關(guān)鍵詞提取

先from jieba import anallyse
jieba.analyse.extract_tags(sentence, topK = 20, withWeight = False, allowPOS = ())

參數(shù)一:sentence,為提取文本
參數(shù)二:topK 返回幾個 TF/IDF 權(quán)重最大的關(guān)鍵詞,默認值為20。
參數(shù)三:withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認值為False。
參數(shù)四:allowPOS:僅包括指定詞性的詞,默認值為空,即不進行篩選。
參數(shù)五:jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 實例,idf_path 為 IDF 頻率文件。

4.2 關(guān)鍵詞提取停用詞

關(guān)鍵詞提取所使用停用詞(Stop Words)文本語料庫可以切換成自定義語料庫的路徑。
jieba.analyse.set_stop_words(file_name) #file_name為自定義語料庫的路徑

5.調(diào)整詞典:add_word()、del_word()和suggest_freq()

  使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中動態(tài)修改詞典.

  使用 suggest_freq(segment, tune=True) 可調(diào)節(jié)單個詞語的詞頻,使其能(或不能)被分出來。

  注意:自動計算的詞頻在使用 HMM 新詞發(fā)現(xiàn)功能時可能無效。

6.并行分詞(多進程分詞)

 基于python的multipprocessing模塊,目前不支持windows。
 jieba.enable_parallel(4) # 開啟并行分詞模式,參數(shù)為并行進程數(shù)。
 jieba.disable_parallel()   # 關(guān)閉并行分詞模式。

注: 本人水平有限, 如有錯誤歡迎提出指正!如有引用, 請注明出處!!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容