DBLP-AI論文分析

在經(jīng)過對數(shù)據(jù)的采集、清理、存儲以及計(jì)算分析后,就到了將其可視化的階段。我們在 眾多的可視化工具選擇了 echarts,并且找到與 python 結(jié)合的可直接使用包—pyecharts,它 易于使用,且效果圖美觀,為數(shù)據(jù)的可視化提供了很大的方便。具體使用方法請參考官網(wǎng): http://pyecharts.org/#/。
我們從論文所屬國家、機(jī)構(gòu)、關(guān)鍵字、作者合作關(guān)系四個角度出發(fā),準(zhǔn)備對數(shù)據(jù)進(jìn)行分 析。其中包括柱狀圖、折線圖、餅圖、詞云圖、關(guān)系圖,對應(yīng)的名為 Bar、Line、Pie、WordCloud、 Graph。

可視化圖表思路

在此介紹一下多圖表Page類,在創(chuàng)建一個 page 實(shí)例后,可以將想要列在同一頁的圖 表實(shí)例添加到該實(shí)例中。

    # 創(chuàng)建 page 實(shí)例
    page = Page("AAAI 會議國家論文數(shù)據(jù)分析 ") 
    Bar, Line, Pie = ......
    # 添加圖表 Bar, Line, Pie 到 page 中
    page.add(Bar)
    page.add(Line)
    page.add(Pie)
    # 將 page 保存為 html 文件
    page.render(path='Country_analysis.html')

對于作圖,要考慮的問題是傳入數(shù)據(jù)格式與對應(yīng)圖表要求的配置相同。需要將從數(shù)據(jù)庫 導(dǎo)出的數(shù)據(jù)進(jìn)行計(jì)算以及轉(zhuǎn)換為需要的格式。例如,制作“2010-2017 年發(fā)表論文總數(shù)前 12名國家 ”柱狀圖時,需要數(shù)據(jù)格式為: country = ["國家 1","國家 2", ...], 對應(yīng)的論文總 數(shù) article_num = [1, 2, ...];作者合作關(guān)系圖需要的數(shù)據(jù)格式較為復(fù)雜:
每個作者的節(jié)點(diǎn)數(shù)據(jù)nodedata=[("作者名字", 貢獻(xiàn)因子,"國家",(合作者數(shù)據(jù))),...] 其中 合作者數(shù)據(jù) = ("合作者 1", 合作次數(shù)), ("合作者 2", 合作次數(shù)),... 例如:nodedata = [
("Sun", 3, (("Zhao", 2), ("Qian", 3), ("Li", 9))),
("Li", 4, (("Wu", 4), ("Wang", 5), ("Huang", 7), ("Qian", 3))), ("Zhao", 2),
("Qian", 1),
("Wu", 1),
("Wang", 2),
("Huang", 2)
]
在獲得需要的數(shù)據(jù)后,我們首先對各國 2010-2017 年發(fā)表的論文數(shù)進(jìn)行統(tǒng)計(jì)。從下面 三張圖中我們可以看到美國在AAAI會議上發(fā)表人工智能方面的論文數(shù)一直處于遙遙領(lǐng)先的 狀態(tài),我國則緊隨其后,是發(fā)展勢頭最猛的第二國家。


image.png

image.png

image.png

再次,我們將所有論文的第一作者歸屬為其所在機(jī)構(gòu),分析獲得了以下兩圖。可以看到 我們國家高等高校及組織對研究人工智能方向的熱情,有 5 名高校及組織的第一作者發(fā)表論 文數(shù)已經(jīng)躋身世界前列。


image.png

image.png

聚焦到國內(nèi)的狀況,我們統(tǒng)計(jì)了各大高校及組織所有發(fā)表的論文數(shù),并排名選取了前十 名,南京大學(xué)已入圍前四,可喜可賀。
image.png

再來對我南京大學(xué)分析一波。經(jīng)過篩選統(tǒng)計(jì),我校在 2010-2017 年間在 AAAI 會議上發(fā) 表關(guān)于人工智能論文的作者共有 49 位。我們將 49 位作者選取了前 30 位權(quán)重最高的,并把 他們的合作者(包括校外以及國外作者)畫入到關(guān)系圖中。我校貢獻(xiàn)因子最高的兩位是周志 華老師、李武軍老師。
image.png

image.png

image.png

除此之外,我們對收集到的關(guān)鍵詞進(jìn)行了統(tǒng)計(jì)分析,選取了頻次最高的 100 個詞做成 了一下的詞云圖,字體越大表示出現(xiàn)的頻次越高??梢钥吹阶钪饕臒嵩~有 Machine learning (機(jī)器學(xué)習(xí))、Reinforcement learning(強(qiáng)化學(xué)習(xí))、Game theory(博弈論)、Deep learning (深度學(xué)習(xí))等。
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容