
思維導(dǎo)圖
Q1:簡(jiǎn)要闡述分詞的三種模式及其區(qū)別。
1.分詞的三種模式
-
精確模式:試圖將句子最精確地切分開(kāi),適合文本分析
-
全模式:把句子中所有可以成詞的詞都掃描出來(lái),速度非常快,但是不能解決歧義問(wèn)題
-
搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次進(jìn)行切分,以提高召回率,適合搜素引擎分詞
2.使用jieba完成三種模式的分詞
-
代碼示例:

-
輸出結(jié)果:

3.三者的區(qū)別
-
精確模式:在分詞時(shí)會(huì)盡量選擇長(zhǎng)詞,如“上海大學(xué)”
-
搜索引擎模式:會(huì)針對(duì)精確模式結(jié)果中的長(zhǎng)詞再次進(jìn)行切分,如“上海大學(xué)”會(huì)被切分成“上?!薄按髮W(xué)”“上海大學(xué)”三個(gè)詞
-
全模式:相比于搜索引擎模式的長(zhǎng)詞切分,它不依賴于精確模式的結(jié)果,如“前往”和“上海大學(xué)”已經(jīng)切分出來(lái),但依然會(huì)輸出“往上”。
由于全模式分詞過(guò)于“暴力”,因此,實(shí)際工作中,通常會(huì)選擇精確模式或者搜索引擎模式。
Q2:如何建立并使用自定義詞典和停用詞詞典?
1.自定義詞典
-
有時(shí)需要根據(jù)需求將一些專有名詞切分出來(lái),例如“中國(guó)海洋大學(xué)”,這時(shí)可以構(gòu)建一個(gè)txt文件形式的自定義詞典。

-
使用python讀取自定義詞典:

2.停用詞詞典
-
很多語(yǔ)氣助詞或者人稱代詞都不是工作中所關(guān)心的,在最終的結(jié)果中希望能夠?qū)⑵溥^(guò)濾掉,這時(shí)需要建立停用詞詞典
-
網(wǎng)絡(luò)上可以找到很多權(quán)威的中文停用詞詞典,在此基礎(chǔ)上,根據(jù)個(gè)人需要,添加一些自定義的停用詞,建立自己的停用詞詞典
-
建立停用詞詞典:

-
使用python讀取停用詞詞典:

Q3:如何繪制多樣化的詞云?
使用wordcloud包繪制詞云:一部電影的評(píng)論詞云
(1)導(dǎo)入包、分詞

(2)利用自定義圖片繪制詞云

選用的圖片
(3)處理圖像,繪制詞云

(4)最終結(jié)果

參考文獻(xiàn)
1.《拿下Offer 數(shù)據(jù)分析師求職面試指南》徐麟 著