0.1%個(gè)大數(shù)據(jù)對(duì)藥檢院歷年新聞進(jìn)行文本分析

? ? ? 大概在一兩年前在網(wǎng)上看過(guò)一篇文章,文章標(biāo)題是《我分析42萬(wàn)字的歌詞,為搞清楚民謠歌手們?cè)诔┦裁础?/a>,看完當(dāng)時(shí)我就震驚了,居然還有這樣的操作,同時(shí)也希望自己有朝一日,能夠模仿他寫(xiě)出同樣的一篇文章。

? ? ? 機(jī)緣巧合,自己斷斷續(xù)續(xù)也學(xué)習(xí)了python一年,今天也終于在半copy,半baidu的情況下,依葫蘆畫(huà)瓢,參照鄧?yán)蠋煹姆椒?,大概?shí)現(xiàn)了文本情感分析。(用python實(shí)現(xiàn)簡(jiǎn)單的文本情感分析

? ? ? ?大致過(guò)程如下:爬蟲(chóng)抓取了藥檢院網(wǎng)站2007年-2017年共1062條,提取其中的標(biāo)題、內(nèi)容、發(fā)表時(shí)間以及url網(wǎng)址,對(duì)新聞內(nèi)容通過(guò)jieba進(jìn)行分詞,通過(guò)鄧?yán)蠋煹乃惴▽?duì)詞匯情感值進(jìn)行統(tǒng)計(jì)分析,通過(guò)wordcloud生成詞云,通過(guò)matplotlib繪圖。本來(lái)還打算用pandas進(jìn)行數(shù)據(jù)分析,無(wú)奈功夫不深,pandas和numpy都只學(xué)了皮毛,于是還是直接導(dǎo)出到excel中進(jìn)行分析。

? ? ? ? 抓取內(nèi)容的存入excel表格。

新聞抓取情況


? ? ? ?對(duì)各條新聞內(nèi)容進(jìn)行情感值分析,新聞的內(nèi)容越積極向上,分值則越高。

? ? ? ?圖1是不同分值新聞的頻數(shù)分布情況圖,圖2是歷年新聞的情感值均值,可見(jiàn)2012年,我院的新聞報(bào)導(dǎo)更加偏積極。

圖1 頻數(shù)分布


圖2 歷年新聞情感值均值

? ? ? ?對(duì)新聞的內(nèi)容進(jìn)行分詞后,對(duì)各個(gè)詞匯出現(xiàn)的頻數(shù)進(jìn)行了統(tǒng)計(jì),并分析具有代表意義的關(guān)鍵詞。

? ? ? 出現(xiàn)最多的是“工作”二字,看來(lái)以后可以更加有理有據(jù)的吐槽工作忙的像狗了,排名第二第三的則是“檢驗(yàn)”和“檢測(cè)”,這也確實(shí)反映了大家的工作重點(diǎn)是圍繞檢驗(yàn)展開(kāi)。

新聞詞匯頻數(shù)Top15

? ? ? 進(jìn)而對(duì)新聞的關(guān)鍵詞進(jìn)行了分析,該分析方法采用IDF-TF算法,比簡(jiǎn)單的比較詞匯出現(xiàn)頻數(shù)更能說(shuō)明問(wèn)題。排名第一的毋庸置疑是“食品藥品”,而我對(duì)其余幾個(gè)主要的詞匯進(jìn)行了分析,頻數(shù)分布是藥品>食品>化妝品>保健品>藥包材,這與我們業(yè)務(wù)處平時(shí)的收樣量也確實(shí)吻合orz

新聞關(guān)鍵詞Top20
主要檢驗(yàn)項(xiàng)目詞匯權(quán)重排名

最后出于娛樂(lè),利用wordcloud繪制了一張我們?cè)旱?0年來(lái)的新聞詞云。



———————————————————————————————————————————

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?python代碼什么的就不放了,只能說(shuō)寫(xiě)的及其糟心...

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容