# 定義分詞的判斷條件
def getSeg(text,wd_dict):
if not text:
return ''
if len(text)==1:
return text
if text in wd_dict:
return text
else:
new_length=len(text)-1
text=text[0:new_length]
res=getSeg(text,wd_dict)
return res
# 定義最大正向匹配
def main (text_str,n_len,dict_name):
text_str=text_str.strip()#去除字符串前后空格
max_len=n_len#定義最大匹配分詞長度
result_str=''#保存要輸出的結(jié)果
while text_str:
new_text=text_str[0:max_len]
seg_str=getSeg(new_text,dict_name)
result_str=result_str+seg_str+'/'
seg_len=len(seg_str)
text_str=text_str[seg_len:]
return result_str
print('分詞結(jié)束')
word_dict=['一個(gè)','吃飯']
string='我一個(gè)人吃飯'
main(string,5,word_dict)
正向匹配分詞
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
相關(guān)閱讀更多精彩內(nèi)容
- 原文鏈接:原文鏈接 分詞算法設(shè)計(jì)中的幾個(gè)基本原則: 1、顆粒度越大越好:用于進(jìn)行語義分析的文本分詞,要求分詞結(jié)果的...
- 在一個(gè)三叉搜索樹(Ternary Search Trie)中,每一個(gè)節(jié)點(diǎn)包括一個(gè)字符,但和數(shù)字搜索樹不同,三叉搜索...
- 分詞器選擇 調(diào)研了幾種分詞器,例如IK分詞器,ansj分詞器,mmseg分詞器,發(fā)現(xiàn)IK的分詞效果最好。舉個(gè)例子:...
- 樓主在上篇文章中,提出了將詞和字分開,用不同的分詞器分別構(gòu)建索引,來解決match_phrase在中文中的短語或者...
- 中文分詞是中文自然語言處理中十分重要的基礎(chǔ)性工作,基本后續(xù)的一切工作都依賴分詞。本文主要探討MMSEG這個(gè)分詞系統(tǒng)...