1.Github上下載WOS_Crawler
https://github.com/tomleung1996/wos_crawler
2.WOS_Crawler使用
#先將main.py文件第33行的crawl_by_gui()取消注釋,執(zhí)行程序啟動圖形界面
python main.py
#報錯1:ModuleNotFoundError: No module named 'qt5reactor'
解決方法:pip install qt5reactor
#報錯2:ModuleNotFoundError: No module named 'scrapy'
解決方法:pip install scrapy
#報錯2:ModuleNotFoundError: No module named 'bibtexparser'
解決方法:pip install bibtexparser
#啟動圖形化界面
python main.py
#填寫爬取內容
這里以爬取2000-2020年Genome Biology上發(fā)表的有關基因組變異相關主題文獻為例,填寫完檢索式和保存路徑后直接爬取即可。

圖一:填寫檢索式

圖二:爬取過程
3.提取DOI
cat 1-122.txt | grep ^DI * | awk '{print $2}' > DOI.txt
4.根據DOI批量下載文獻
https://github.com/bibcure/scihub2pdf
# scihub2pdf安裝
pip3 install scihub2pdf
# download.py文件中domain_scihub修改為"https://scihubtw.tw/"
# PhantomJS安裝(mac)
brew install phantomjs
# 測試
scihub2pdf doi:10.1186/s13059-020-02125-w
# 批量從SCI-HUB上下載(根據DOI)
scihub2pdf -i DOI.txt --txt
rm *.png

圖三:測試