#充實自己21#--跟著Professor Lei學(xué)Python之中文分詞1.0

這兩天一直在跟著professor Lei學(xué)Python,由于課程講解是以實際的商務(wù)應(yīng)用為基礎(chǔ)的,所以,內(nèi)容講得倒是不枯燥,很有趣。今天professor Lei講到如何使用Python來進行自然語言的分詞處理。由于只學(xué)到如何分詞,還沒有學(xué)如何去停止詞以及如何添加本地詞庫,所以,今天記錄一下學(xué)到的技能。

內(nèi)容:構(gòu)建中文分詞類。

要求:1.實現(xiàn)中文分詞;2.統(tǒng)計詞頻,并降序排列

基本思路:1.該類中有兩個方法:中文分詞(cut),返回分詞列表;2.詞頻統(tǒng)計(mum),返回”關(guān)鍵詞-詞頻“列表;2.再構(gòu)造方法”__init__()”中對字符串賦值。

利用以上的內(nèi)容,隨手從網(wǎng)上抓取了一段文字進行練習(xí)。內(nèi)容為:“為國家謀發(fā)展,為人民謀幸福,習(xí)近平總書記提醒我們始終要有一種“等不起”的緊迫感和“慢不得”的危機感。 在抗擊疫情的關(guān)鍵階段,習(xí)近平總書記啟動了爭分奪秒的中國加速度。他反復(fù)強調(diào),同時間賽跑,與病魔較量。 當(dāng)時間進入脫貧攻堅收官之年,習(xí)近平已在多個場合發(fā)出沖鋒號令,表明堅決打贏脫貧攻堅戰(zhàn)的決心。在3月6日召開的決戰(zhàn)決勝脫貧攻堅座談會上,他親自數(shù)算著時間:“今年滿打滿算還有不到10個月的時間,按日子算就是300天……” 時間不等人,分分秒秒都很珍貴。 第二季度,是搶時間、趕進度、補損失的關(guān)鍵時期。只有千方百計把落下的進度趕回來,把疫情造成的損失奪回來,才能確保各項目標(biāo)任務(wù)如期完成。 直面挑戰(zhàn)、迅速行動;必須盡早再動員、再部署;復(fù)工復(fù)產(chǎn)提速擴面;生產(chǎn)生活秩序加快恢復(fù)……習(xí)近平總書記以超乎尋常的緊迫感和時間感指導(dǎo)工作,目標(biāo)就是要把“失去的時間奪回來”。 奮力追趕,但脫貧的成色不能減,經(jīng)濟社會發(fā)展的質(zhì)量不能降。 中國人民就是在追趕時間中不斷創(chuàng)造歷史的。習(xí)近平總書記堅定表示,“我們必須同時間賽跑、同歷史并進?!薄拔覀儽仨氉咴跁r間前面”。 ”練習(xí)的結(jié)果如下:

[(',', 17),

('的', 15),

('。', 12),

('時間', 11),

('“', 6),

('習(xí)近平', 5),

('”', 5),

('在', 5),

('、', 5),

('總書記', 4),

('脫貧', 4),

('…', 4),

('我們', 3),

(' ', 3),

('同', 3),

('就是', 3),

('把', 3),

(';', 3),

('必須', 3),

('為', 2),

('人民', 2),

('要', 2),

('等', 2),

('緊迫感', 2),

('和', 2),

('疫情', 2),

('中國', 2),

('他', 2),

('賽跑', 2),

('攻堅', 2),

('月', 2),

('進度', 2),

('損失', 2),

('奪回來', 2),

('目標(biāo)', 2),

('再', 2),

('追趕', 2),

('不能', 2),

('歷史', 2),

('國家', 1),

('謀發(fā)展', 1),

('謀', 1),

('幸福', 1),

('提醒', 1),

('始終', 1),

('有', 1),

('一種', 1),

('不起', 1),

('慢', 1),

('不得', 1),

('危機感', 1),

('抗擊', 1),

('關(guān)鍵', 1),

('階段', 1),

('啟動', 1),

('了', 1),

('爭分奪秒', 1),

('加速度', 1),

('反復(fù)強調(diào)', 1),

('與', 1),

('病魔', 1),

('較量', 1),

('當(dāng)', 1),

('進入', 1),

('收官', 1),

('之', 1),

('年', 1),

('已', 1),

('多個', 1),

('場合', 1),

('發(fā)出', 1),

('沖鋒', 1),

('號令', 1),

('表明', 1),

('堅決', 1),

('打贏', 1),

('攻堅戰(zhàn)', 1),

('決心', 1),

('3', 1),

('6', 1),

('日', 1),

('召開', 1),

('決戰(zhàn)', 1),

('決勝', 1),

('座談會', 1),

('上', 1),

('親自', 1),

('數(shù)算', 1),

('著', 1),

(':', 1),

('今年', 1),

('滿打滿算', 1),

('還有', 1),

('不到', 1),

('10', 1),

('個', 1),

('按', 1),

('日子', 1),

('算', 1),

('300', 1),

('天', 1),

('不', 1),

('人', 1),

('分分秒秒', 1),

('都', 1),

('很', 1),

('珍貴', 1),

('第二季度', 1),

('是', 1),

('搶', 1),

('趕', 1),

('補', 1),

('關(guān)鍵時期', 1),

('只有', 1),

('千方百計', 1),

('落下', 1),

('趕回來', 1),

('造成', 1),

('才能', 1),

('確保', 1),

('各項', 1),

('任務(wù)', 1),

('如期完成', 1),

('直面', 1),

('挑戰(zhàn)', 1),

('迅速行動', 1),

('盡早', 1),

('動員', 1),

('部署', 1),

('復(fù)工', 1),

('復(fù)產(chǎn)', 1),

('提速', 1),

('擴面', 1),

('生產(chǎn)', 1),

('生活', 1),

('秩序', 1),

('加快', 1),

('恢復(fù)', 1),

('以', 1),

('超乎尋常', 1),

('感', 1),

('指導(dǎo)', 1),

('工作', 1),

('失去', 1),

('奮力', 1),

('但', 1),

('成色', 1),

('減', 1),

('經(jīng)濟社會', 1),

('發(fā)展', 1),

('質(zhì)量', 1),

('降', 1),

('中', 1),

('不斷', 1),

('創(chuàng)造', 1),

('堅定', 1),

('表示', 1),

('并進', 1),

('走', 1),

('前面', 1)]


由以上的結(jié)果可知,這里面還有很多沒有實際意義的詞語和標(biāo)點符號,所以,如果要想把抓取的內(nèi)容為自己所用,除了把沒有實際意義的詞和標(biāo)點符號排除在統(tǒng)計結(jié)果之外,還需要自己建立一個本地詞庫,用于存儲一些自己有特殊用處且不想被拆分的詞,比如一些特殊名稱等,因此,以上的結(jié)果并不滿意。

后續(xù),將繼續(xù)學(xué)習(xí)中文分詞、詞頻統(tǒng)計以及排序和詞云等使用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容