最近極客邦發(fā)布了一款新產(chǎn)品—極客搜索,整合了極客邦下面的技術(shù)文章資源。抱著嘗鮮的態(tài)度,我也去試用了一下,發(fā)現(xiàn)搜索的速度特別快。分析了一下為什么這么快,主要有兩點吧:1、資源太少了!!!,12個公眾號加起來才5161篇文章;2、用了Vue框架,異步加載數(shù)據(jù)。這款產(chǎn)品還是很好用的,推薦一下,也希望快點增加可搜索的技術(shù)資源。

最近正想采集一些文章來做分詞,該界面是用Vue寫的,那么所有的數(shù)據(jù)都是走的接口吧,這樣數(shù)據(jù)采集就極為方便了,因此心血來潮,趁著產(chǎn)品剛剛推出來,反爬機制應(yīng)該不強,就采集了極客邦所有的公眾號數(shù)據(jù)。
一:文章采集
主要分為兩步,采集文章鏈接和原文采集。
1、采集文章鏈接,通過搜索接口,抓取到所有的文章鏈接

從返回的數(shù)據(jù)中,可以抓取到文章原文的鏈接,接下來就是通過鏈接采集原文的數(shù)據(jù)了。
2、原文信息采集
使用scrapy框架來采集微信文章的數(shù)據(jù),總共采集了5151篇文章。

具體代碼見文末地址
二:數(shù)據(jù)分析
接下來對采集的文章做了一些簡單的統(tǒng)計。
1、哪個公眾號寫了最多的文章
infoQ寫了最多的文章,998篇,占了19.35%。StuQ排第二,835篇,占比16.19%,EGONetworks排第三,802篇,占比15。55%。這三個部分剛好是極客邦科技的三大業(yè)務(wù)。

2、每天發(fā)布的文章總數(shù)
隨著運營的公眾號越來越多,文章的數(shù)量在不斷的上漲,2017每個月都能達到250篇以上。編輯的能力很強悍。

每天統(tǒng)計發(fā)布的文章數(shù)量:很有規(guī)律,周一到周五發(fā)的比較多,周六日發(fā)的比較少。辛苦在周六周日加班的人。

3、文章詞頻統(tǒng)計
對所有文章進行分詞,然后統(tǒng)計出詞頻。
前10:我們、一個、數(shù)據(jù)、技術(shù)、可以、服務(wù)、使用、需要、問題、系統(tǒng)

前10個詞串起來就是:我們需要使用一個系統(tǒng)來服務(wù)技術(shù)或數(shù)據(jù)的問題。是否在暗示著什么,我能不能開發(fā)一個給你們用啊,商機就在這里呀。由于對分詞結(jié)果沒有做調(diào)整,所有出現(xiàn)了很多的常用修飾詞等。這是一個耗體力活,以后再干。
4、作者統(tǒng)計
根據(jù)文章的作者進行統(tǒng)計。前10:StuQ、EGO、InfoQ、徐川、大咖說、陳園園、Q新聞、靛青K&郭亮、斯達克學(xué)院、大牛V課堂。

5、文章標(biāo)題的趨勢
文章標(biāo)題的命名也反映了一段時間的趨勢,因此我將所有文章的標(biāo)題抽取出來,做了一個分詞,通過自定義jieba的字典和剔除很多的修飾詞等,得到下面的結(jié)果。
2015:技術(shù)排第一位,這也符合極客邦的特點吧。微直播和微課堂提到很多,主要是StuQ這個公眾號廣告打的太多了。當(dāng)然也能夠看到互聯(lián)網(wǎng)金融、大數(shù)據(jù)、創(chuàng)業(yè)、容器技術(shù)等當(dāng)年很火的一些詞。

2016:技術(shù)仍然排第一位,出現(xiàn)了一些云計算,開源等詞,同時也有很多國內(nèi)的大公司阿里,AWS,百度,京東等

2017:萬變不離技術(shù),同時機器學(xué)習(xí)、深度學(xué)習(xí)、人工智能、AI等詞的使用量增多,符合現(xiàn)在的各種學(xué)習(xí)熱。

從文章標(biāo)題的命名來看,極客邦的微信公眾號內(nèi)容基本上是跟隨最新的技術(shù)趨勢。掌握科技發(fā)展趨勢,分析一下標(biāo)題就行了。
三:總結(jié)
本文主要的工作就是數(shù)據(jù)的采集和分析,對于數(shù)據(jù)采集方面,難度并不大,使用scrapy很快就可以搞定。而數(shù)據(jù)分析則比較消耗時間,我也只做了一些簡單的統(tǒng)計。后續(xù)會在數(shù)據(jù)的基礎(chǔ)上做一些文本關(guān)聯(lián)分析。
數(shù)據(jù)的展示地址極客邦數(shù)據(jù)分析 - 小系統(tǒng),源代碼也已經(jīng)放在github上了,crawler-geekbang/geekbang at master · xuxping/crawler-geekbang · GitHub