每個入坑的研究生幾乎都是從看綜述開始的,在確定好研究課題后的第一件是也許就是看各種綜述。如果把綜述看成一顆樹,那么順著這顆樹的脈絡(luò),我們可以清楚地看到這個小領(lǐng)域的研究方向和進展。綜述不僅幫我們梳理好了特定領(lǐng)域的研究歷史、重要研究成果,還有對未來研究展望??墒?,對于剛?cè)腴T的研究生,對將要進入的領(lǐng)域完全沒有認識,一頭扎進一篇篇綜述里面,仿佛將一個人突然從空中推下森林里,眼前只有高大的樹木,茂盛的樹葉,對著個森林完全沒有整體的認識,不知道這個森林有多大,不知道森林里什么地方樹木比較密集,不知道什么地方陽光雨水充足適合樹木發(fā)展,更不知道自己將要棲身的那顆樹的發(fā)展前途怎么樣。這些都是綜述給不了的。那么我們?nèi)绾卧陂_始時就對這片小森林有一定的認識呢?
本文試圖提供一個非常簡單甚至有點天真的想法,具體的想法是在數(shù)據(jù)庫里爬取大量論文的基本信息,包括題目、通訊作者、發(fā)表年份,論文類型和關(guān)鍵詞,然后通過文本挖掘來對這片小森林有一個簡單的認識?;痉治鼋Y(jié)果包括歷年文章發(fā)表數(shù)量和趨勢,發(fā)表文章比較多的作者是那些人,領(lǐng)域里研究的熱點是什么,還有這些關(guān)鍵詞有什么樣的聯(lián)系。
一、數(shù)據(jù)獲取:
sciencedirect是Elsevier旗下的一個數(shù)據(jù)庫網(wǎng)站,Elsevier又是荷蘭一家全球著名的學術(shù)期刊出版商,每年出版大量的學術(shù)圖書和期刊,大部分期刊被SCI、SSCI、EI收錄,是世界上公認的高品位學術(shù)期刊。更重要的是sciencedirect上的數(shù)據(jù)結(jié)構(gòu)非常整齊,關(guān)鍵詞搜索比較準確,只需要非常簡單的爬蟲就可以抓取大量的數(shù)據(jù);爬蟲的實現(xiàn)比較簡單,網(wǎng)上有大量教程。需要說明的是sciencedirect數(shù)據(jù)庫中每篇論文具體頁面的關(guān)鍵詞的位置不固定,而且加載時是動態(tài)加載,反正我這個菜鳥不會,所以論文的關(guān)鍵詞用論文標題中的名詞代替,雖然這樣不是很準確。同時,通訊作者和其單位匹配也比較復雜,沒有規(guī)律,所以只能放棄,最后,論文被引次數(shù)也是動態(tài)加載,所以也只能放棄,好在我們只是簡單地看一下這片森林,所以剩余的信息也基本夠用。所以最終的數(shù)據(jù)有論文題目, 論文類型,通訊作者,期刊名稱,發(fā)表年份和關(guān)鍵詞。這里以關(guān)鍵詞——‘cytoskeleton’為例,爬取sciencedirect中的結(jié)果,由于只是演示,所以只爬取搜索結(jié)果的前10頁的內(nèi)容,共250條記錄。
二、結(jié)果分析:
1、最近幾年文章發(fā)表趨勢。
歷年文章發(fā)表趨勢在一定程度上可以說明這個領(lǐng)域的活力程度。

由于sciencedirect中的搜索結(jié)果并不是以時間來排序,所以前250個記錄中只包含了一部分這些年的數(shù)據(jù),但趨勢還是比較明顯的,每年這個領(lǐng)域的文章都是逐步上升的。
2、這個領(lǐng)域里發(fā)表文章數(shù)最多的作者。
衡量一個作者在這個領(lǐng)域的分量有很多指標,比如比較權(quán)威的H指數(shù)等,但這里僅用發(fā)表文章數(shù)量作一個簡單又天真的替代。
對作者進行分組統(tǒng)計,然后排序,所以很容易得到一個柱形圖??梢钥吹桨l(fā)表文章最多的前五個作者分別是Regina Pessoa-Pureur、Guangshuo Qu、Qiang Fu、Dao-Yi Yu和Alptekin Aksan。值得注意的是,這里沒有考慮文章的影響因子,也沒有考慮文章被引數(shù)目,而且數(shù)據(jù)量也非常小,所以這個結(jié)果是演示作用。

3、領(lǐng)域中的研究熱點。
這里用論文題目中詞的頻率來表示領(lǐng)域里的研究熱點,雖然不是很準確,但也有一定的相關(guān)性。
wordcloud是一款非常簡單的繪制詞云庫,具體使用方法參考(https://blog.csdn.net/u01309756/article/details/67637930)。

從圖中可以看出,actin、membrane、induced、receptor、effect、regulates、Rho等出現(xiàn)的頻率相對來說非常的高,說明這些是人們的研究的熱點。(注意圖中的cytoskeleton出現(xiàn)了兩次,原因一直沒找出了,希望有大神能解釋)。
4、關(guān)鍵詞的聯(lián)系。
nltk的全稱是natural language toolkit,是一套基于python的自然語言處理工具集。textblob是一款比nltk簡單的文本處理工具,這里主要是用到其簡單的提取名詞、去除stopword的功能。
networkx是python里繪制網(wǎng)絡(luò)圖的重要第三方包,功能非常強大,coursera上有其使用的簡單實用教程(https://www.coursera.org/learn/python-social-network-analysis/),這里就不作介紹了。
關(guān)聯(lián)分析主要是從大規(guī)模數(shù)據(jù)中尋找物品間的隱含關(guān)系,最出名的關(guān)聯(lián)分析實例就是沃爾瑪超市里的啤酒和尿布案例(其真實性在知乎上有討論)。不管怎樣,關(guān)聯(lián)分析為我們提取事物的聯(lián)系提供了很好分析方法,其中的Apriori算法更是為大規(guī)模數(shù)據(jù)的關(guān)聯(lián)分析提供了強力的支撐。需要說明的是這里用到的關(guān)于關(guān)聯(lián)分析的Apriori算法的代碼來自《machine learning in action》。

利用Apriori算法,提取minSupport大于0.02的frequent item進行分析,圖中實心圓的顏色越深,代表其和其他詞的關(guān)聯(lián)數(shù)量越多,兩者之間的連線的粗細代表support的大小??梢钥吹?,cytoskeleton和cell、actin、reorganization、effect的關(guān)聯(lián)度比較高,比較有意思的是同屬于骨架的microtubute和cytoskeleton的關(guān)聯(lián)非常的少,也有可能是數(shù)據(jù)量比較小的原因。
這里只是分析了兩個詞之間的兩兩的關(guān)聯(lián)性,更多詞的關(guān)聯(lián)性見sciencedirect.ipynb文件。
三、結(jié)論
雖然項目比較簡單,但通過這些基本的分析還是能看到綜述里無法表達的信息,使我們對小森林的認識有一定的幫助。
注:由于數(shù)據(jù)集中很多關(guān)鍵信息不是缺少就是用其他信息替代,所以分析的結(jié)果的準確性有一定的限制(反正只是用來練手)。
文中涉及的詳細代碼見https://github.com/xianyu426/sciencedirect_analysis
最后希望大神多提意見!??!