編程技能(四)熟悉python——文本處理

思維導(dǎo)圖

Q1:簡(jiǎn)要闡述分詞的三種模式及其區(qū)別。

1.分詞的三種模式

  • 精確模式:試圖將句子最精確地切分開(kāi),適合文本分析

  • 全模式:把句子中所有可以成詞的詞都掃描出來(lái),速度非常快,但是不能解決歧義問(wèn)題

  • 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次進(jìn)行切分,以提高召回率,適合搜素引擎分詞

2.使用jieba完成三種模式的分詞

  • 代碼示例:

  • 輸出結(jié)果:

3.三者的區(qū)別

  • 精確模式:在分詞時(shí)會(huì)盡量選擇長(zhǎng)詞,如“上海大學(xué)”

  • 搜索引擎模式:會(huì)針對(duì)精確模式結(jié)果中的長(zhǎng)詞再次進(jìn)行切分,如“上海大學(xué)”會(huì)被切分成“上?!薄按髮W(xué)”“上海大學(xué)”三個(gè)詞

  • 全模式:相比于搜索引擎模式的長(zhǎng)詞切分,它不依賴于精確模式的結(jié)果,如“前往”和“上海大學(xué)”已經(jīng)切分出來(lái),但依然會(huì)輸出“往上”。

由于全模式分詞過(guò)于“暴力”,因此,實(shí)際工作中,通常會(huì)選擇精確模式或者搜索引擎模式。


Q2:如何建立并使用自定義詞典和停用詞詞典?

1.自定義詞典

  • 有時(shí)需要根據(jù)需求將一些專有名詞切分出來(lái),例如“中國(guó)海洋大學(xué)”,這時(shí)可以構(gòu)建一個(gè)txt文件形式的自定義詞典。

  • 使用python讀取自定義詞典:

2.停用詞詞典

  • 很多語(yǔ)氣助詞或者人稱代詞都不是工作中所關(guān)心的,在最終的結(jié)果中希望能夠?qū)⑵溥^(guò)濾掉,這時(shí)需要建立停用詞詞典

  • 網(wǎng)絡(luò)上可以找到很多權(quán)威的中文停用詞詞典,在此基礎(chǔ)上,根據(jù)個(gè)人需要,添加一些自定義的停用詞,建立自己的停用詞詞典

  • 建立停用詞詞典:

  • 使用python讀取停用詞詞典:


Q3:如何繪制多樣化的詞云?

使用wordcloud包繪制詞云:一部電影的評(píng)論詞云

(1)導(dǎo)入包、分詞

(2)利用自定義圖片繪制詞云

選用的圖片

(3)處理圖像,繪制詞云

(4)最終結(jié)果


參考文獻(xiàn)

1.《拿下Offer 數(shù)據(jù)分析師求職面試指南》徐麟 著

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容