大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法等新的互聯(lián)網(wǎng)工具的推廣和應(yīng)用,為我們打開(kāi)了一扇了解公眾對(duì)某些事物的看法、關(guān)注度等統(tǒng)計(jì)信息的大門(mén)。
無(wú)論是一個(gè)產(chǎn)品、還是一個(gè)地區(qū)、還是一個(gè)人名、或者一個(gè)品牌,都可以通過(guò)媒體數(shù)據(jù)去抓取并分析了解公眾的反應(yīng),例如新聞網(wǎng)站、論壇、博客、微博、微信、貼吧、天涯等。
當(dāng)然也可以通過(guò)對(duì)京東、淘寶等電商網(wǎng)站上評(píng)論進(jìn)行分析和統(tǒng)計(jì),從而獲取某些產(chǎn)品、某些品牌、某些地區(qū)、某些時(shí)間段的消費(fèi)者反饋等基礎(chǔ)數(shù)據(jù),也可以繼續(xù)通過(guò)數(shù)據(jù)篩選獲取更細(xì)節(jié)的內(nèi)容。
友情提醒:本文是本站截止目前圖片最多的一篇文章:
步驟:
今天早上7點(diǎn)鐘,設(shè)定幾組關(guān)鍵詞,例如產(chǎn)品安全相關(guān)的有:空氣污染、甲醛、空氣凈化器、產(chǎn)品召回等。
貿(mào)易壁壘相關(guān)的有:貿(mào)易壁壘、TBT、認(rèn)證、自貿(mào)區(qū)等。
然后,不用管它,等到晚上,服務(wù)器后臺(tái)已經(jīng)將數(shù)據(jù)收集整理成一系列可視化的輸出。
熱詞云:根據(jù)關(guān)鍵詞數(shù)量和頻率的多少,改變?cè)~組字體大小的分布,從而直觀的看出哪些關(guān)鍵詞更受公眾重視。例如下圖中污染、空氣質(zhì)量等關(guān)鍵詞的數(shù)量和頻率要大于食物、質(zhì)量等關(guān)鍵詞。

也可以通過(guò)關(guān)聯(lián)詞圖找出相關(guān)的關(guān)鍵詞,幫助進(jìn)一步檢索和分析。

對(duì)于不同的關(guān)鍵詞,或?qū)⒁唤M關(guān)鍵詞組合之后,再綜合計(jì)算,得出公眾對(duì)某些問(wèn)題的情感反應(yīng)統(tǒng)計(jì)數(shù)據(jù)。
情感分析(SA)又稱為傾向性分析和意見(jiàn)挖掘,它是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程,用戶對(duì)某客體表達(dá)自身觀點(diǎn)所持的態(tài)度是支持、反對(duì)、中立,即通常所指的正面情感、負(fù)面情感、中性情感。例如“贊美”與“表?yè)P(yáng)”同為褒義詞,表達(dá)正面情感,而“齷齪”與“丑陋”就是貶義詞,表達(dá)負(fù)面情感。
例如對(duì)于“假貨”這個(gè)關(guān)鍵詞,可以看出消極態(tài)度48.30%,大于中立態(tài)度24.03%和積極態(tài)度27.67%。還可以看出相對(duì)于昨天的變化趨勢(shì),積極、中立、消極態(tài)度各自是增加還是減少。

然后,又好奇的看了下上海外國(guó)語(yǔ)大學(xué)的態(tài)度,可以看出積極態(tài)度73.08%,遠(yuǎn)遠(yuǎn)大于中立態(tài)度和消極態(tài)度的比例。:)

再輸入一位最近比較火的明星“周濤”,可以看出積極態(tài)度也是大于中立和消極態(tài)度,從另一個(gè)方面印證了廣大網(wǎng)民對(duì)國(guó)民媳婦的態(tài)度。

其次,除了態(tài)度部分,還可以從媒體來(lái)源,得出部分信息,例如對(duì)比家電品牌格力和海爾,我們發(fā)現(xiàn)今天關(guān)于格力部分,新聞報(bào)道多于微博信息。而海爾則相反, 微博信息多于新聞報(bào)道。
另外,格力和海爾的總數(shù)量上,可以看出海爾的相對(duì)格力更多一些。當(dāng)然這些數(shù)據(jù)是當(dāng)天的統(tǒng)計(jì),如果時(shí)間再進(jìn)行延長(zhǎng)或切割,結(jié)果會(huì)有所變化。

另外,對(duì)于一組關(guān)鍵詞,也可以通過(guò)不同關(guān)鍵詞的數(shù)量對(duì)比,發(fā)現(xiàn)公眾對(duì)哪些部分更加關(guān)注,哪些部分相對(duì)冷門(mén)。例如對(duì)于貿(mào)易壁壘相關(guān)部分,認(rèn)證和標(biāo)準(zhǔn)化遠(yuǎn)遠(yuǎn)大于貿(mào)易壁壘和TBT等術(shù)語(yǔ)。

而對(duì)于環(huán)境保護(hù)方面,污染關(guān)鍵詞數(shù)量最多,達(dá)到11138個(gè),甲醛次之,而pm2.5關(guān)鍵詞只有87個(gè)。

更深入的,還可以通過(guò)輿情數(shù)量,進(jìn)行排序,找到哪些事件或內(nèi)容關(guān)注度最高,例如下面可以看出格力關(guān)鍵詞部分,數(shù)量最多的是“你竟敢打我格力員工。。?!笨梢钥闯龃祟惿婕暗絾T工安全和尊嚴(yán)的時(shí)間,更能引起網(wǎng)民的關(guān)注。
當(dāng)然,還可以從時(shí)間這個(gè)維度進(jìn)行觀察,了解到不同時(shí)間段,公眾對(duì)于一個(gè)事件的情感趨勢(shì),是更消極還是更積極的態(tài)度。

也可以從輿情數(shù)量上,看出網(wǎng)民對(duì)一個(gè)事件或關(guān)鍵詞的表達(dá)是變多還是變少。

小結(jié):
在網(wǎng)址導(dǎo)航中搜集了部分關(guān)于人工智能的相關(guān)網(wǎng)站,如有興趣可以進(jìn)一步了解。