jieba 中文分詞教程

【嵌牛導(dǎo)讀】 jieba 中文分詞教程

【嵌牛鼻子】jieba? 中文分詞

【嵌牛提問】如何使用jieba 進(jìn)行中文分詞?

【嵌牛正文】

參考文章:http://www.itdecent.cn/p/883c2171cdb5

jieba是目前最好的 Python 中文分詞組件,它主要有以下 3 種特性:

1.支持 3 種分詞模式:精確模式、全模式、搜索引擎模式

2.支持繁體分詞

3.支持自定義詞典


第一步 導(dǎo)入模塊

可使用jieba.cut和jieba.cut_for_search方法進(jìn)行分詞,兩者所返回的結(jié)構(gòu)都是一個可迭代的 generator,可使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中:

jieba.cut和jieba.lcut接受 3 個參數(shù):

需要分詞的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

cut_all 參數(shù):是否使用全模式,默認(rèn)值為False

HMM 參數(shù):用來控制是否使用 HMM 模型,默認(rèn)值為True


jieba.cut_for_search和jieba.lcut_for_search接受 2 個參數(shù):

需要分詞的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

HMM 參數(shù):用來控制是否使用 HMM 模型,默認(rèn)值為True

# 盡量不要使用 GBK 字符串,可能無法預(yù)料地錯誤解碼成 UTF-8


第二步 全模式分詞

【全模式】:他/ 來到/ 上海/ 上海交通大學(xué)/ 交通/ 大學(xué)


第二步 精確模式分詞

【精確模式】:他/ 來到/ 上海交通大學(xué)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 0 引言 ??jieba 是目前最好的 Python 中文分詞組件,它主要有以下 3 種特性: 支持 3 種分詞模...
    Gaius_Yao閱讀 119,130評論 3 82
  • 前言 從本文開始,我們進(jìn)入實戰(zhàn)部分。首先,我們按照中文自然語言處理流程的第一步獲取語料,然后重點進(jìn)行中文分詞的學(xué)習(xí)...
    Element靜婷閱讀 961評論 0 0
  • 前言 從本文開始,我們進(jìn)入實戰(zhàn)部分。首先,我們按照中文自然語言處理流程的第一步獲取語料,然后重點進(jìn)行中文分詞的學(xué)習(xí)...
    lanlantian123閱讀 5,417評論 0 2
  • “結(jié)巴”中文分詞:做最好的 Python中文分詞組件 1 jieba中文分詞簡介: 中文分詞是中文NLP的第一步,...
    黃平東閱讀 1,430評論 1 6
  • 1、生活換位思考,珍惜才配擁有 生活本來不容易 ,當(dāng)你覺得容易的時候,肯定是有人在替你承擔(dān)屬于你的那份不容易,...
    祖敏閱讀 571評論 0 0

友情鏈接更多精彩內(nèi)容