項目“輿情分析平臺”工作總結(jié)

輿情分析平臺又可稱為“輿情監(jiān)測分析及預(yù)警響應(yīng)系統(tǒng)開發(fā)”,作為項目總結(jié)的第一篇文章,我會詳細(xì)的介紹工作的中的各個流程。

項目描述:

該項目運用爬蟲爬取互聯(lián)網(wǎng)上新聞數(shù)據(jù),采用自然語言處理方法對新聞數(shù)據(jù)進行分析,使得能夠監(jiān)測并預(yù)警互聯(lián)網(wǎng)中的熱點事件

地址:http://101.204.243.86:9000/index.html#pages-2

項目時間:

2015.12 - 2016.06

主要工作:

1、對元數(shù)據(jù)進行清洗

2、將清洗后的數(shù)據(jù)進行分詞和詞性標(biāo)注

3、對數(shù)據(jù)進行去停用詞和高頻詞統(tǒng)計


下面詳細(xì)介紹項目工作流程及我做的主要工作

該項目是我接觸的第一個項目,剛剛接觸該項目時是一種懵逼的狀態(tài)。大師兄在知乎做算法工作,工作經(jīng)驗豐富,抽時間會帶帶我們。項目總共分為五組,分別是爬蟲組、算法組、后端組、前端組、UI組。我和另外幾個師兄弟主要承擔(dān)算法工作。

爬蟲組:負(fù)責(zé)爬取數(shù)據(jù)。在大數(shù)據(jù)時代,數(shù)據(jù)就是資源、數(shù)據(jù)就是金錢。我們的數(shù)據(jù)來源來期初來自于幾個大的新聞網(wǎng)站,如今日頭條、新浪新聞、搜狗新聞等等,到后來又陸續(xù)增加了幾十個數(shù)據(jù)源,在此就不一一細(xì)說。

算法組:處理數(shù)據(jù),是整個項目組的核心部分。在此,我將爬蟲組的趴下來的某種格式的數(shù)據(jù)稱之為元數(shù)據(jù)(這不是我起的名,早之前就有)。首先算法組要做的就是對數(shù)據(jù)進行數(shù)據(jù)清洗,清晰掉一些無用的格式(如url、圖片格式等),這些東西對文本處理沒有任何幫助。保留的部分主要有uuid、title、正文、等主要的部分。其次將處理后的數(shù)據(jù)進行用NLP的方式進行數(shù)據(jù)處理:分詞、詞性標(biāo)注(jieba)、去停用詞(整理的停用詞典)、統(tǒng)計詞頻(高頻詞)、關(guān)鍵詞與文本摘要(textrank4zh)、情感分析、事件聚類(LDA)、事件熱度及事件影響力分析等,然后將數(shù)據(jù)入庫(MongoDB)。此外,算法組另一個重要的工作就是和后端組進行數(shù)據(jù)對接。

后端組:主要具體做的工作我不是很清楚。下面我說下我的理解:后端組是實現(xiàn)整個demo的一部分,首選要和算法組進行對接數(shù)據(jù),然后就是對整個demo的架構(gòu)喲一個設(shè)計??偟膩碚f,后端更多的是與數(shù)據(jù)庫進行交互以處理相應(yīng)的業(yè)務(wù)邏輯。需要考慮的是如何實現(xiàn)功能、數(shù)據(jù)的存取、平臺的穩(wěn)定性與性能等。

前端組:顧名思義就是泛指Web前端,也就是在Web應(yīng)用中用戶可以看得見碰得著的東西,包括Web頁面的結(jié)構(gòu)、Web的外觀視覺表現(xiàn)以及Web層面的交互實現(xiàn)。

UI組:User Interface(用戶界面),簡稱UI,是指對軟件的人機交互、操作邏輯、界面美觀的整體設(shè)計。簡單的說,就是對設(shè)計各種沒關(guān)的界面。

由于后面三個組的工作我不是很清楚,這里就不細(xì)說。

總之,除了爬蟲組要和算法組之間進行一些數(shù)據(jù)格式的溝通外,剩下的幾個組之間要不斷溝通、相互協(xié)作才能共同推進項目的進展。在改項目中,我主要負(fù)責(zé)數(shù)據(jù)清洗、分詞與詞性標(biāo)注、去停用詞、高頻詞等工作。簡而言之,在該該項目中,我也得到了初步的鍛煉,讓我對做工程充滿了敬畏與期待!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容