前言
原文鏈接:https://seattleboy.github.io/2018/03/11/Script-1/
????過(guò)了狗年,又老了一歲,也進(jìn)入研二下學(xué)期了。2018年接下來(lái)的幾個(gè)月相繼面臨著實(shí)習(xí)、找工作等,也是該好好學(xué)點(diǎn)兒出去能掙口飯吃的本領(lǐng)了,特爬了200萬(wàn)的知乎用戶數(shù)據(jù)做些數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等工作來(lái)練練手。本文是百萬(wàn)知乎數(shù)據(jù)的第一篇,接下來(lái)的博文我會(huì)對(duì)從不同的角度挖掘這些數(shù)據(jù)隱含的一些有趣的信息。
思路來(lái)源
????之前看了很多網(wǎng)上的大牛爬了上百萬(wàn)的知乎用戶數(shù)據(jù)進(jìn)行分析,對(duì)這樣的事情很感興趣,因?yàn)樽约浩綍r(shí)也做這個(gè)方向,以后也想要找這個(gè)方面的工作。遂網(wǎng)上找了GitHub上的知乎爬蟲(chóng)爬了兩百萬(wàn)的知乎用戶數(shù)據(jù)(上個(gè)月爬的數(shù)據(jù),具有一定的時(shí)效性,僅供參考和娛樂(lè)使用),做些數(shù)據(jù)分析或者機(jī)器學(xué)習(xí)方面的嘗試。
????我目前已經(jīng)看到三篇這樣的文章,都對(duì)我有很大的啟發(fā),在這里引用一下,其中的爬蟲(chóng)也來(lái)自第一篇文章的作者的GitHub,而第二篇文章則主要分析了國(guó)內(nèi)的名校的程序員們都去哪里工作了?有一部分講了BAT公司里面每個(gè)名校學(xué)生的比例,我因此誕生了看下國(guó)內(nèi)的主要互聯(lián)網(wǎng)公司里員工的主要學(xué)校分布的想法,所以有了這篇文章。
- 百萬(wàn)知乎用戶數(shù)據(jù)分析
- 爬了知乎200萬(wàn)數(shù)據(jù),圖說(shuō)程序員都喜歡去哪兒工作
- 大數(shù)據(jù)報(bào)告:知乎百萬(wàn)用戶分析
數(shù)據(jù)總結(jié)
- 共200萬(wàn)數(shù)據(jù),刪去學(xué)校和公司為空的還剩8萬(wàn)多條,再刪去非主要互聯(lián)網(wǎng)公司的,還剩將近1萬(wàn)條。
- 分析工具:Python+pandas+BDP個(gè)人版
- 分析角度:公司統(tǒng)計(jì)、學(xué)校統(tǒng)計(jì)、職位統(tǒng)計(jì)等
數(shù)據(jù)總體展示
????首先是這次篩選的互聯(lián)網(wǎng)公司和主要城市的統(tǒng)計(jì)(如下圖),本文都是采用的詞云圖(字越大說(shuō)明頻率越高)。從圖片里面不難看出,常規(guī)的BAT、華為、網(wǎng)易等都在此次篩選的數(shù)據(jù)里面,同時(shí)主要的程序猿也主要分布在北京、上海、杭州、深圳等(BAT各自的總部嘛)。


????接下來(lái)是職位的統(tǒng)計(jì),篩選的大部分都是互聯(lián)網(wǎng)公司,可以從圖中看到上面的圖中互聯(lián)網(wǎng)公司中的不同職位程序猿在知乎的活躍程度。不出意外,分布最多是產(chǎn)品經(jīng)理、前端等,看來(lái)這些人在知乎上比較活躍呀。

????既然說(shuō)到了不同學(xué)校的幫派統(tǒng)計(jì),就要先看在我篩選的所有互聯(lián)網(wǎng)公司各個(gè)學(xué)校程序員的主要分布情況。北郵,華科,浙大,武漢大學(xué),清華,北大南大,上海交大,西電,哈工大等等的程序猿還是很多的,說(shuō)明這些程序猿專注代碼的同時(shí)還經(jīng)常在知乎上溜達(dá)溜達(dá)~。

各互聯(lián)網(wǎng)公司展示
????上面的圖片只是給數(shù)據(jù)一個(gè)大概的展示,接下來(lái)才是每個(gè)主要互聯(lián)網(wǎng)公司內(nèi)部的不同學(xué)校的程序猿主要分布情況,各位看官如果跟我一樣面臨實(shí)習(xí)和找工作,可以參考下看看哪里的校友比較多(下面的排名沒(méi)有順序,是我隨意亂排的)。














