【嵌牛導(dǎo)讀】 jieba 中文分詞教程
【嵌牛鼻子】jieba? 中文分詞
【嵌牛提問】如何使用jieba 進(jìn)行中文分詞?
【嵌牛正文】
參考文章:http://www.itdecent.cn/p/883c2171cdb5
jieba是目前最好的 Python 中文分詞組件,它主要有以下 3 種特性:
1.支持 3 種分詞模式:精確模式、全模式、搜索引擎模式
2.支持繁體分詞
3.支持自定義詞典

可使用jieba.cut和jieba.cut_for_search方法進(jìn)行分詞,兩者所返回的結(jié)構(gòu)都是一個可迭代的 generator,可使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中:
jieba.cut和jieba.lcut接受 3 個參數(shù):
需要分詞的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
cut_all 參數(shù):是否使用全模式,默認(rèn)值為False
HMM 參數(shù):用來控制是否使用 HMM 模型,默認(rèn)值為True
jieba.cut_for_search和jieba.lcut_for_search接受 2 個參數(shù):
需要分詞的字符串(unicode 或 UTF-8 字符串、GBK 字符串)
HMM 參數(shù):用來控制是否使用 HMM 模型,默認(rèn)值為True
# 盡量不要使用 GBK 字符串,可能無法預(yù)料地錯誤解碼成 UTF-8

【全模式】:他/ 來到/ 上海/ 上海交通大學(xué)/ 交通/ 大學(xué)

【精確模式】:他/ 來到/ 上海交通大學(xué)