蜜桃午夜视频网页,aaaav在线

每個入坑的研究生幾乎都是從看綜述開始的，在確定好研究課題后的第一件是也許就是看各種綜述。如果把綜述看成一顆樹，那么順著這顆樹的脈絡(luò)，我們可以清楚地看到這個小領(lǐng)域的研究方向和進展。綜述不僅幫我們梳理好了特定領(lǐng)域的研究歷史、重要研究成果，還有對未來研究展望?？墒?，對于剛?cè)腴T的研究生，對將要進入的領(lǐng)域完全沒有認識，一頭扎進一篇篇綜述里面，仿佛將一個人突然從空中推下森林里，眼前只有高大的樹木，茂盛的樹葉，對著個森林完全沒有整體的認識，不知道這個森林有多大，不知道森林里什么地方樹木比較密集，不知道什么地方陽光雨水充足適合樹木發(fā)展，更不知道自己將要棲身的那顆樹的發(fā)展前途怎么樣。這些都是綜述給不了的。那么我們?nèi)绾卧陂_始時就對這片小森林有一定的認識呢？
本文試圖提供一個非常簡單甚至有點天真的想法，具體的想法是在數(shù)據(jù)庫里爬取大量論文的基本信息，包括題目、通訊作者、發(fā)表年份，論文類型和關(guān)鍵詞，然后通過文本挖掘來對這片小森林有一個簡單的認識?；痉治鼋Y(jié)果包括歷年文章發(fā)表數(shù)量和趨勢，發(fā)表文章比較多的作者是那些人，領(lǐng)域里研究的熱點是什么，還有這些關(guān)鍵詞有什么樣的聯(lián)系。
一、數(shù)據(jù)獲取：
sciencedirect是Elsevier旗下的一個數(shù)據(jù)庫網(wǎng)站，Elsevier又是荷蘭一家全球著名的學術(shù)期刊出版商，每年出版大量的學術(shù)圖書和期刊，大部分期刊被SCI、SSCI、EI收錄，是世界上公認的高品位學術(shù)期刊。更重要的是sciencedirect上的數(shù)據(jù)結(jié)構(gòu)非常整齊，關(guān)鍵詞搜索比較準確，只需要非常簡單的爬蟲就可以抓取大量的數(shù)據(jù)；爬蟲的實現(xiàn)比較簡單，網(wǎng)上有大量教程。需要說明的是sciencedirect數(shù)據(jù)庫中每篇論文具體頁面的關(guān)鍵詞的位置不固定，而且加載時是動態(tài)加載，反正我這個菜鳥不會，所以論文的關(guān)鍵詞用論文標題中的名詞代替，雖然這樣不是很準確。同時，通訊作者和其單位匹配也比較復雜，沒有規(guī)律，所以只能放棄，最后，論文被引次數(shù)也是動態(tài)加載，所以也只能放棄，好在我們只是簡單地看一下這片森林，所以剩余的信息也基本夠用。所以最終的數(shù)據(jù)有論文題目，論文類型，通訊作者，期刊名稱，發(fā)表年份和關(guān)鍵詞。這里以關(guān)鍵詞——‘cytoskeleton’為例，爬取sciencedirect中的結(jié)果，由于只是演示，所以只爬取搜索結(jié)果的前10頁的內(nèi)容，共250條記錄。
二、結(jié)果分析：

1、最近幾年文章發(fā)表趨勢。
歷年文章發(fā)表趨勢在一定程度上可以說明這個領(lǐng)域的活力程度。

year.png

由于sciencedirect中的搜索結(jié)果并不是以時間來排序，所以前250個記錄中只包含了一部分這些年的數(shù)據(jù)，但趨勢還是比較明顯的，每年這個領(lǐng)域的文章都是逐步上升的。

2、這個領(lǐng)域里發(fā)表文章數(shù)最多的作者。
衡量一個作者在這個領(lǐng)域的分量有很多指標，比如比較權(quán)威的H指數(shù)等，但這里僅用發(fā)表文章數(shù)量作一個簡單又天真的替代。
對作者進行分組統(tǒng)計，然后排序，所以很容易得到一個柱形圖?？梢钥吹桨l(fā)表文章最多的前五個作者分別是Regina Pessoa-Pureur、Guangshuo Qu、Qiang Fu、Dao-Yi Yu和Alptekin Aksan。值得注意的是，這里沒有考慮文章的影響因子，也沒有考慮文章被引數(shù)目，而且數(shù)據(jù)量也非常小，所以這個結(jié)果是演示作用。

year.png

3、領(lǐng)域中的研究熱點。
這里用論文題目中詞的頻率來表示領(lǐng)域里的研究熱點，雖然不是很準確，但也有一定的相關(guān)性。
wordcloud是一款非常簡單的繪制詞云庫，具體使用方法參考（https://blog.csdn.net/u01309756/article/details/67637930）。

cloud_title.png

從圖中可以看出，actin、membrane、induced、receptor、effect、regulates、Rho等出現(xiàn)的頻率相對來說非常的高，說明這些是人們的研究的熱點。（注意圖中的cytoskeleton出現(xiàn)了兩次，原因一直沒找出了，希望有大神能解釋）。

4、關(guān)鍵詞的聯(lián)系。
nltk的全稱是natural language toolkit，是一套基于python的自然語言處理工具集。textblob是一款比nltk簡單的文本處理工具，這里主要是用到其簡單的提取名詞、去除stopword的功能。
networkx是python里繪制網(wǎng)絡(luò)圖的重要第三方包，功能非常強大，coursera上有其使用的簡單實用教程(https://www.coursera.org/learn/python-social-network-analysis/)，這里就不作介紹了。
關(guān)聯(lián)分析主要是從大規(guī)模數(shù)據(jù)中尋找物品間的隱含關(guān)系，最出名的關(guān)聯(lián)分析實例就是沃爾瑪超市里的啤酒和尿布案例（其真實性在知乎上有討論）。不管怎樣，關(guān)聯(lián)分析為我們提取事物的聯(lián)系提供了很好分析方法，其中的Apriori算法更是為大規(guī)模數(shù)據(jù)的關(guān)聯(lián)分析提供了強力的支撐。需要說明的是這里用到的關(guān)于關(guān)聯(lián)分析的Apriori算法的代碼來自《machine learning in action》。

network_key_words.png

利用Apriori算法，提取minSupport大于0.02的frequent item進行分析，圖中實心圓的顏色越深，代表其和其他詞的關(guān)聯(lián)數(shù)量越多，兩者之間的連線的粗細代表support的大小?？梢钥吹?，cytoskeleton和cell、actin、reorganization、effect的關(guān)聯(lián)度比較高，比較有意思的是同屬于骨架的microtubute和cytoskeleton的關(guān)聯(lián)非常的少，也有可能是數(shù)據(jù)量比較小的原因。
這里只是分析了兩個詞之間的兩兩的關(guān)聯(lián)性，更多詞的關(guān)聯(lián)性見sciencedirect.ipynb文件。
三、結(jié)論
雖然項目比較簡單，但通過這些基本的分析還是能看到綜述里無法表達的信息，使我們對小森林的認識有一定的幫助。
注：由于數(shù)據(jù)集中很多關(guān)鍵信息不是缺少就是用其他信息替代，所以分析的結(jié)果的準確性有一定的限制（反正只是用來練手）。
文中涉及的詳細代碼見https://github.com/xianyu426/sciencedirect_analysis
最后希望大神多提意見！??！

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

研究生入坑只見森林不見樹木

研究生入坑只見森林不見樹木

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

研究生入坑只見森林不見樹木

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av