這兩天一直在跟著professor Lei學(xué)Python,由于課程講解是以實際的商務(wù)應(yīng)用為基礎(chǔ)的,所以,內(nèi)容講得倒是不枯燥,很有趣。今天professor Lei講到如何使用Python來進行自然語言的分詞處理。由于只學(xué)到如何分詞,還沒有學(xué)如何去停止詞以及如何添加本地詞庫,所以,今天記錄一下學(xué)到的技能。
內(nèi)容:構(gòu)建中文分詞類。
要求:1.實現(xiàn)中文分詞;2.統(tǒng)計詞頻,并降序排列
基本思路:1.該類中有兩個方法:中文分詞(cut),返回分詞列表;2.詞頻統(tǒng)計(mum),返回”關(guān)鍵詞-詞頻“列表;2.再構(gòu)造方法”__init__()”中對字符串賦值。
利用以上的內(nèi)容,隨手從網(wǎng)上抓取了一段文字進行練習(xí)。內(nèi)容為:“為國家謀發(fā)展,為人民謀幸福,習(xí)近平總書記提醒我們始終要有一種“等不起”的緊迫感和“慢不得”的危機感。 在抗擊疫情的關(guān)鍵階段,習(xí)近平總書記啟動了爭分奪秒的中國加速度。他反復(fù)強調(diào),同時間賽跑,與病魔較量。 當(dāng)時間進入脫貧攻堅收官之年,習(xí)近平已在多個場合發(fā)出沖鋒號令,表明堅決打贏脫貧攻堅戰(zhàn)的決心。在3月6日召開的決戰(zhàn)決勝脫貧攻堅座談會上,他親自數(shù)算著時間:“今年滿打滿算還有不到10個月的時間,按日子算就是300天……” 時間不等人,分分秒秒都很珍貴。 第二季度,是搶時間、趕進度、補損失的關(guān)鍵時期。只有千方百計把落下的進度趕回來,把疫情造成的損失奪回來,才能確保各項目標(biāo)任務(wù)如期完成。 直面挑戰(zhàn)、迅速行動;必須盡早再動員、再部署;復(fù)工復(fù)產(chǎn)提速擴面;生產(chǎn)生活秩序加快恢復(fù)……習(xí)近平總書記以超乎尋常的緊迫感和時間感指導(dǎo)工作,目標(biāo)就是要把“失去的時間奪回來”。 奮力追趕,但脫貧的成色不能減,經(jīng)濟社會發(fā)展的質(zhì)量不能降。 中國人民就是在追趕時間中不斷創(chuàng)造歷史的。習(xí)近平總書記堅定表示,“我們必須同時間賽跑、同歷史并進?!薄拔覀儽仨氉咴跁r間前面”。 ”練習(xí)的結(jié)果如下:
[(',', 17),
('的', 15),
('。', 12),
('時間', 11),
('“', 6),
('習(xí)近平', 5),
('”', 5),
('在', 5),
('、', 5),
('總書記', 4),
('脫貧', 4),
('…', 4),
('我們', 3),
(' ', 3),
('同', 3),
('就是', 3),
('把', 3),
(';', 3),
('必須', 3),
('為', 2),
('人民', 2),
('要', 2),
('等', 2),
('緊迫感', 2),
('和', 2),
('疫情', 2),
('中國', 2),
('他', 2),
('賽跑', 2),
('攻堅', 2),
('月', 2),
('進度', 2),
('損失', 2),
('奪回來', 2),
('目標(biāo)', 2),
('再', 2),
('追趕', 2),
('不能', 2),
('歷史', 2),
('國家', 1),
('謀發(fā)展', 1),
('謀', 1),
('幸福', 1),
('提醒', 1),
('始終', 1),
('有', 1),
('一種', 1),
('不起', 1),
('慢', 1),
('不得', 1),
('危機感', 1),
('抗擊', 1),
('關(guān)鍵', 1),
('階段', 1),
('啟動', 1),
('了', 1),
('爭分奪秒', 1),
('加速度', 1),
('反復(fù)強調(diào)', 1),
('與', 1),
('病魔', 1),
('較量', 1),
('當(dāng)', 1),
('進入', 1),
('收官', 1),
('之', 1),
('年', 1),
('已', 1),
('多個', 1),
('場合', 1),
('發(fā)出', 1),
('沖鋒', 1),
('號令', 1),
('表明', 1),
('堅決', 1),
('打贏', 1),
('攻堅戰(zhàn)', 1),
('決心', 1),
('3', 1),
('6', 1),
('日', 1),
('召開', 1),
('決戰(zhàn)', 1),
('決勝', 1),
('座談會', 1),
('上', 1),
('親自', 1),
('數(shù)算', 1),
('著', 1),
(':', 1),
('今年', 1),
('滿打滿算', 1),
('還有', 1),
('不到', 1),
('10', 1),
('個', 1),
('按', 1),
('日子', 1),
('算', 1),
('300', 1),
('天', 1),
('不', 1),
('人', 1),
('分分秒秒', 1),
('都', 1),
('很', 1),
('珍貴', 1),
('第二季度', 1),
('是', 1),
('搶', 1),
('趕', 1),
('補', 1),
('關(guān)鍵時期', 1),
('只有', 1),
('千方百計', 1),
('落下', 1),
('趕回來', 1),
('造成', 1),
('才能', 1),
('確保', 1),
('各項', 1),
('任務(wù)', 1),
('如期完成', 1),
('直面', 1),
('挑戰(zhàn)', 1),
('迅速行動', 1),
('盡早', 1),
('動員', 1),
('部署', 1),
('復(fù)工', 1),
('復(fù)產(chǎn)', 1),
('提速', 1),
('擴面', 1),
('生產(chǎn)', 1),
('生活', 1),
('秩序', 1),
('加快', 1),
('恢復(fù)', 1),
('以', 1),
('超乎尋常', 1),
('感', 1),
('指導(dǎo)', 1),
('工作', 1),
('失去', 1),
('奮力', 1),
('但', 1),
('成色', 1),
('減', 1),
('經(jīng)濟社會', 1),
('發(fā)展', 1),
('質(zhì)量', 1),
('降', 1),
('中', 1),
('不斷', 1),
('創(chuàng)造', 1),
('堅定', 1),
('表示', 1),
('并進', 1),
('走', 1),
('前面', 1)]
由以上的結(jié)果可知,這里面還有很多沒有實際意義的詞語和標(biāo)點符號,所以,如果要想把抓取的內(nèi)容為自己所用,除了把沒有實際意義的詞和標(biāo)點符號排除在統(tǒng)計結(jié)果之外,還需要自己建立一個本地詞庫,用于存儲一些自己有特殊用處且不想被拆分的詞,比如一些特殊名稱等,因此,以上的結(jié)果并不滿意。
后續(xù),將繼續(xù)學(xué)習(xí)中文分詞、詞頻統(tǒng)計以及排序和詞云等使用。