如何打造類似數(shù)據(jù)蟲巢官網(wǎng)系列教程之一:介紹以及準(zhǔn)備工作

數(shù)據(jù)蟲巢 - 題圖

文·blogchong

一、俺不是打廣告的

本文的標(biāo)題是“如何打造類似數(shù)據(jù)蟲巢官網(wǎng)系列教程之XX”,那主角當(dāng)然我們的“數(shù)據(jù)蟲巢官網(wǎng)”,不多說上鏈接www.mite8.com。

直接上鏈接好像有點(diǎn)打廣告的嫌疑,其實(shí)真不是,首先說一下,數(shù)據(jù)蟲巢主要的外在體現(xiàn)是爬蟲+數(shù)據(jù)分析+數(shù)據(jù)可視化,應(yīng)簡(jiǎn)書互聯(lián)網(wǎng)專題IT彭大主編之邀,特地做一個(gè)這個(gè)系列。

其實(shí)目的很明確,讓玩爬蟲、數(shù)據(jù)分析、以及數(shù)據(jù)可視化的同行朋友,打通數(shù)據(jù)從收集,到處理,到分析,到網(wǎng)站數(shù)據(jù)可視化整套流程。

整個(gè)數(shù)據(jù)流向的掌握,外在的展現(xiàn),細(xì)節(jié)的把控,最終讓人看到你的各種炫麗的圖表以及相關(guān)勞動(dòng)成果,是一件很有成就感的事。

當(dāng)然,這是感官上的好處,實(shí)際的好處就是,你把整個(gè)流程涉及到技術(shù)都掌握了,那么,不想成為半個(gè)大牛都難。

對(duì)于玩爬蟲的應(yīng)屆生朋友,或者有找相關(guān)崗位工作的朋友,你把你做好的類似數(shù)據(jù)蟲巢官網(wǎng)這種數(shù)據(jù)可視化站點(diǎn),甩到面試官臉上,你的面試總成績(jī)分分鐘可以上揚(yáng)30%。

因?yàn)榫瓦@一個(gè)東西,說不定比你簡(jiǎn)歷上的什么什么項(xiàng)目,都更好使,因?yàn)槟苤苯涌吹窖?,更具有說服力。

當(dāng)然,不能真甩,真甩也別告訴是我教你的,其次你要對(duì)其中整個(gè)流程環(huán)節(jié)涉及的技術(shù)都清楚,最起碼的標(biāo)準(zhǔn)就是面試官難不倒你。

二、上圖,不然你們不信

數(shù)據(jù)蟲巢 - 首頁導(dǎo)航

這是進(jìn)入到“數(shù)據(jù)蟲巢官網(wǎng)”后直接看到的首頁導(dǎo)航,整體網(wǎng)站分首頁模塊、政務(wù)輿情模塊、行業(yè)洞察模塊、大數(shù)據(jù)觀,以及關(guān)于我們五個(gè)模塊。

其實(shí)首頁沒有過多東西,就是把中間兩個(gè)模塊里的一些比較給力,比較有震撼性的圖表搬到首頁展示,別讓首頁空著。

比如,這張圖的第一個(gè)圖表,就是政務(wù)輿情模塊中的一個(gè)圖表,是動(dòng)態(tài)圖喲,整個(gè)圖表會(huì)隨時(shí)間軸一秒變化一次,做輪詢。

數(shù)據(jù)蟲巢 - 首頁中部1

這也是首頁中從其他模塊拿出來的圖表,這是行業(yè)洞察里頭的一個(gè)圖表,2016年一整年的數(shù)據(jù)變化曲線圖,看著北京的霧霾影響波動(dòng)還是蠻有意思的。

大伙兒也可以查一下北京霧霾爆表新聞,看看跟上面的波動(dòng)能不能對(duì)的上,反正我是核查過了,基本上影響波動(dòng)是一致的,說明俺的分析還是蠻準(zhǔn)的嘛。

數(shù)據(jù)蟲巢 - 首頁中部2

這同樣是首頁模塊中,一個(gè)圖表,這個(gè)圖表也是個(gè)動(dòng)態(tài)圖,數(shù)據(jù)不復(fù)雜,整個(gè)圖表是個(gè)典型的動(dòng)態(tài)遷移的數(shù)據(jù)可視化例子,看看就好啦。

數(shù)據(jù)蟲巢 - 首頁底部

這是首頁模塊的底部信息欄,包括了聯(lián)系信息,以及一個(gè)公號(hào)的二維碼,看著是不是很正式,跟人家商業(yè)的數(shù)據(jù)官網(wǎng)查不了哪去吧,簡(jiǎn)直以假亂真,當(dāng)然,這也不是假的。

數(shù)據(jù)蟲巢 - 政務(wù)輿情目錄

這是政務(wù)輿情模塊的入口頁,從名稱上也知道,這部分的重點(diǎn)在于做政務(wù)方面的輿情分析相關(guān)的事。

這部分包括財(cái)政統(tǒng)計(jì)分析子模塊、問政輿情子模塊、教育輿情子模塊、外界口碑輿情子模塊、人才&招聘輿情子模塊、房產(chǎn)輿情子模塊,數(shù)據(jù)是我從地方政府網(wǎng)站、門戶網(wǎng)站、地方論壇等爬取而來。

數(shù)據(jù)蟲巢 - 政務(wù)輿情樣例1

這部分截圖是政務(wù)輿情中,財(cái)政分析子模塊里的部分?jǐn)?shù)據(jù)可視化報(bào)表的截圖,涉及到面積圖、折線圖、柱狀圖,還有一些更復(fù)雜的可視化圖表等等。

數(shù)據(jù)蟲巢 - 政務(wù)輿情樣例2

這部分截圖是人才&招聘輿情子模塊涉及的部分?jǐn)?shù)據(jù)可視化報(bào)表截圖,涉及到變形的占比圖,曲線圖,以及圖表的組合使用等等。

數(shù)據(jù)蟲巢 - 行業(yè)洞察目錄

這是行業(yè)洞察模塊的入口頁,行業(yè)洞察其實(shí)是對(duì)某一方面的問題從數(shù)據(jù)分析層面去剖析。

目前有兩個(gè)子模塊,如圖,一個(gè)從口罩購買的角度分析全國(guó)受霧霾的影響情況分析,另一個(gè)是以各大主流招聘大數(shù)據(jù)相關(guān)崗位的數(shù)據(jù)來分分析大數(shù)據(jù)職位的需求情況。

前部分?jǐn)?shù)據(jù)是爬自京東的口罩購買評(píng)論數(shù)據(jù),后部分?jǐn)?shù)據(jù)是爬自各大主流招聘網(wǎng)站。

其實(shí)還有一個(gè)對(duì)電影《長(zhǎng)城》的用戶反饋分析,當(dāng)時(shí)《長(zhǎng)城》熱播,爭(zhēng)議頗大,所以爬取了不少豆瓣的電影評(píng)論數(shù)據(jù),做了具體的相關(guān)分析,包括涉及的熱點(diǎn)、評(píng)論的情感分析等等。

數(shù)據(jù)蟲巢 - 行業(yè)洞察樣例1

這部分是霧霾影響分析中,涉及的地域分析情況,典型的結(jié)合地圖,做的數(shù)據(jù)可視化,當(dāng)然這個(gè)子模塊還有其他數(shù)據(jù)可視化形式,鑒于截圖就沒法一個(gè)個(gè)細(xì)說了。

數(shù)據(jù)蟲巢 - 行業(yè)洞察樣例2

這部分是對(duì)于大數(shù)據(jù)需求分析中的部分圖表,其中會(huì)涉及到玫瑰圖、詞云、橫向柱狀圖等數(shù)據(jù)可視化的形式。

數(shù)據(jù)蟲巢 - 大數(shù)據(jù)觀

這個(gè)大模塊是大數(shù)據(jù)相關(guān)的文章合集,基于數(shù)據(jù)可視化做的各種數(shù)據(jù)分析,再輔以大數(shù)據(jù)相關(guān)的文字,能文能武,簡(jiǎn)直絕了。

這塊的數(shù)據(jù)其實(shí)就是來自我的大數(shù)據(jù)公眾號(hào),與官網(wǎng)同名,“數(shù)據(jù)蟲巢”。

這部分對(duì)文章劃了四個(gè)不同的類型:

1 大數(shù)據(jù)觀點(diǎn),這部分文章偏大數(shù)據(jù)行業(yè)話題討論

2 大數(shù)據(jù)挖掘,這部分主要是與大數(shù)據(jù)結(jié)合的價(jià)值挖掘部分相關(guān)的文章

3 大數(shù)據(jù)技術(shù),這部分的文章偏大數(shù)據(jù)技術(shù)相關(guān)的東西

4 感悟雜談,這部分的文章比較雜,有生活感悟、工作感嘆,雞湯等等亂七八糟的

數(shù)據(jù)蟲巢 - 關(guān)于我們

最后一個(gè)大模塊,就是關(guān)于我們,好吧,這個(gè)看著挺唬人的,但是,沒有這個(gè)部分怎么讓整個(gè)網(wǎng)站看著更“正規(guī)”呢?!

哈哈,已經(jīng)有不止一個(gè)人對(duì)我說,你們公司的官網(wǎng)挺炫啊,我能怎么說(得意的大笑三聲)。

上面這些基本上數(shù)據(jù)蟲巢官網(wǎng)的所有模塊了,當(dāng)然截圖只是截圖而已,只是一部分,并且很多動(dòng)態(tài)的數(shù)據(jù)可視化效果無法展示,想要了解更多只能上去看看咯。

除此之外,頁頂?shù)谋尘爸?,還有很炫的原子散漫效果,鼠標(biāo)移動(dòng)上去,原子效果會(huì)聚集、磁化,看上去更有科技感、數(shù)據(jù)感了,是不是更加高端大氣上檔次了。

是的,我要帶你們打造的就是這么一款看著比一些科技公司官網(wǎng)看起來更炫的個(gè)人網(wǎng)站,集個(gè)人技術(shù)大成的技術(shù)名片,對(duì)外吹牛逼的好工具,通往升職加薪的大門,迎娶白富美的花轎...

好吧,我自己都有點(diǎn)編不下去了~~額,總之,就是這么一個(gè)東西啦。

三、飆完圖,咱來說技術(shù)

以下幾點(diǎn),我認(rèn)為你們需要關(guān)注:

1 如何解決數(shù)據(jù)源的問題:爬。所以它會(huì)涉及爬蟲的相關(guān)知識(shí)。

2 如何做數(shù)據(jù)的存儲(chǔ):MySQL。額,可能不是你們想象中的Hadoop,這點(diǎn)幾十萬上百萬的數(shù)據(jù),MySQL就夠了嘛,要個(gè)蛋HDFS,我有罪,讓你們失望了,沒用高端大氣上檔次的Hadoop。

3 如何做數(shù)據(jù)分析:Java邏輯處理,數(shù)據(jù)清洗,再加MySQL的統(tǒng)計(jì)分析,所有的業(yè)務(wù)結(jié)果數(shù)據(jù)就出來了,沒有想象中復(fù)雜。

4 如何構(gòu)建一個(gè)網(wǎng)站:阿里云服務(wù)器一枚+域名一枚+Spring boot。是的,你需要自己搞個(gè)云服務(wù)器,上面搭載數(shù)據(jù)庫、爬蟲服務(wù)、數(shù)據(jù)清洗進(jìn)程,以及你的網(wǎng)站代碼,聽著就有點(diǎn)復(fù)雜,實(shí)際真有點(diǎn)復(fù)雜。

5 如何做出這么炫麗的可視化圖表:Echarts。大百度開發(fā)的可視化框架,流弊的不行不行,好用的不得了。

6 如何解決文字這塊的內(nèi)容:這個(gè)沒轍,自己寫?算了,你還是直接用我的文章吧,俺不受版權(quán)費(fèi)。

上面的信息,我們來總結(jié)一下會(huì)涉及到哪些技術(shù):

1 你需要會(huì)爬蟲,不管是Python也好,Java框架也好,都行,只要能拿到數(shù)據(jù),當(dāng)然,為了拿到數(shù)據(jù),你需要會(huì)做抓包分析,會(huì)一些基礎(chǔ)的破解反爬策略。

2 你得會(huì)數(shù)據(jù)庫操作,最基礎(chǔ)的MySQL得會(huì)一些,增刪改查,數(shù)據(jù)存儲(chǔ),建表刪表,數(shù)據(jù)的清洗轉(zhuǎn)換,這個(gè)很基礎(chǔ)的了,不會(huì)自己百度吧。

3 對(duì)于云服務(wù)器的一些東西需要了解,最起碼會(huì)XShell客戶端的使用吧,不然你怎么登陸到你的服務(wù)器中,學(xué)會(huì)配置防火墻策略等等。

4 基礎(chǔ)的Linux操作得會(huì)點(diǎn),不然怎么玩云服務(wù)器,還指望著你在上頭自己安裝MySQL,自己安裝一些必要的工具、例如Python、Java之類的呢,java服務(wù)的部署,一些Shell腳本的編寫等等。

5 域名相關(guān)的知識(shí)得會(huì)些,最起碼得知道一個(gè)網(wǎng)站是需要域名的吧,知道從哪購買域名,購買域名之后知道怎么關(guān)聯(lián)實(shí)際的IP等等相關(guān)的知識(shí)。

6 Java后端框架得會(huì)多一些,這里用的是Spring boot,簡(jiǎn)單輕便的后端框架,強(qiáng)烈推薦,不妨再告訴你們,前端其實(shí)也是用這個(gè)一起寫的,很古老的JSP模式,老,但是夠用了。

7 前端的知識(shí)得會(huì)一些,不然,你以為這么高端大氣上當(dāng)次的頁面布局,整體頁面規(guī)劃哪來的,是的,所以你需要知道一些前端知識(shí),布局啊,CSS啊,JS腳本啊。

8 數(shù)據(jù)可視化框架需要懂,不懂就沒法玩最酷的部分了,其實(shí)不難的,像我這種之前一點(diǎn)都不會(huì)js的,不照樣自學(xué)上了么?!

好吧,俺錯(cuò)了,俺不再列了,再TM列下去,讀者全跑了,還打造個(gè)毛啊。

是的,整個(gè)數(shù)據(jù)流程,從數(shù)據(jù)收集,到數(shù)據(jù)存儲(chǔ),到處理,到統(tǒng)計(jì)分析,到網(wǎng)站,到數(shù)據(jù)最終展示,涉及的技術(shù),確實(shí)不少,真要打造出一個(gè)這么東西,應(yīng)該夠你自豪了。

但是,也不要擔(dān)心,我當(dāng)時(shí)玩這個(gè)的時(shí)候,爬蟲是自學(xué)的、JAVA后端的東西是自學(xué),前端更是自學(xué)的,細(xì)數(shù)一下好像除了MySQL在學(xué)校學(xué)了點(diǎn),好像其他東西都是自己折騰著出來的,所以比我有更強(qiáng)大大腦的你還怕個(gè)鳥。

更何況,還有我,這個(gè)系列的終極目的就是帶你打造這么一個(gè)東西出來滴,啊不,終極目標(biāo)是幫你打造一個(gè)裝逼的個(gè)人網(wǎng)站。

四、你就不好奇,為啥我會(huì)折騰出來這個(gè)東西

其實(shí)這個(gè)東西一開始我也沒有想到要搞出來的,畢竟前前后后搞它搞了兩三周(這話好有歧義的樣子),雖然是業(yè)余時(shí)間。

其實(shí)一開始我是對(duì)政務(wù)輿情這塊的話題感興趣,所以想對(duì)自己老家的政務(wù)相關(guān)的以數(shù)據(jù)的角度去剖析,就嘗試了爬取了自己老家的地方性政府網(wǎng)站,地方門戶網(wǎng)站相關(guān)的數(shù)據(jù)。

然后結(jié)合統(tǒng)計(jì)局的數(shù)據(jù),做了一些角度的分析,然后發(fā)現(xiàn)挺有意思的。

后面又在爬蟲這條路上越走越遠(yuǎn),當(dāng)時(shí)一時(shí)好奇,想知道大數(shù)據(jù)的市場(chǎng)行情如何,每個(gè)城市啊,細(xì)分的技術(shù)方向啊等等對(duì)于薪酬的變化影響,所以一時(shí)心癢,繼續(xù)研究爬蟲一口氣爬了幾個(gè)主流招聘網(wǎng)站的大數(shù)據(jù)相關(guān)崗位,做了相關(guān)分析。

這條路子越走越黑,緊接著北京連續(xù)霧霾警報(bào),朋友圈已經(jīng)被北京的霧霾占領(lǐng)了,于是想做霧霾造成的影響分析,接著從京東的口罩相關(guān)的數(shù)據(jù)去解析這相關(guān)的影響。

在電影《長(zhǎng)城》水深火熱之際,我又爬了《長(zhǎng)城》的豆瓣數(shù)據(jù),做了一次深度的分析。

不知不覺,幾次折騰下來,我發(fā)現(xiàn)已經(jīng)算是爬蟲小入門了,但是很不甘心這些我爬過來的數(shù)據(jù)就這樣僅僅的在我的公號(hào)里曇花一現(xiàn)。

是的,我要把他們給釋放出來,讓數(shù)據(jù)展現(xiàn)出他們的華麗。

所以,我開始著手打造“數(shù)據(jù)蟲巢官網(wǎng)”,然后...

然后,敬請(qǐng)期待下一篇《如何打造類似數(shù)據(jù)蟲巢官網(wǎng)系列教程之二:爬蟲是怎么煉成的》。


相關(guān)閱讀:

《要說起霧霾,那到底是不是北京的醇厚?》

《大數(shù)據(jù)職位畫像-看看你是不是白混了這么多年!》

《用數(shù)據(jù)挖一挖豆瓣5.3分的長(zhǎng)城,水軍的力量到底有多大!》

《數(shù)據(jù)化政務(wù)輿情的探索》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容