首先導(dǎo)入需要的包。

接下來讀入100行數(shù)據(jù),查看數(shù)據(jù)大致情況。

從圖中可以看出,每行數(shù)據(jù)均有14個字段。
我們讀入數(shù)據(jù)的id,分類和上傳時間字段。大致統(tǒng)計一下數(shù)據(jù)。

我們統(tǒng)計一下,在本數(shù)據(jù)集中共出現(xiàn)了多少種獨(dú)立的數(shù)據(jù)集。

從結(jié)果可以看出,共176個子集。
接下來我們提取出19年以后的論文。

在得到了2019年以后的所有論文以后,我們挑選出計算機(jī)領(lǐng)域內(nèi)的所有文章。這里需要使用爬蟲。

我們將2個表格合并后,可以用餅圖看下每一個大類的文章占比情況。


最后計算一下計算機(jī)領(lǐng)域2019年和2020年各小類論文的分布情況。
